本章介绍的技术包括:1,新的cost函数,cross-enropy cost函数;2,regularization方法(L1 regularization, L2 regularization, drop out, 手动扩展训练集),提升神经网络的在非训练集上的泛化;3,更优的神经网络的初始化方法;4,选择更好的超参数的一些探索。我也会简单过一遍其他的技术,但不会深入讨论。这些技术的讨论...
第6章 深度Q网络和Actor-Critic的结合6.1 简介深度Q网络(Deep Q-Network,DQN)算法是一种经典的离线策略方法。 它将Q-Learning算法与深度神经网络相结合,实现了从视觉输入到决策输出的端到端学习。然而, 虽然…