第6章 深度Q网络和Actor-Critic的结合 6.1 简介 深度Q网络(Deep Q-Network,DQN)算法是一种经典的离线策略方法。 它将Q-Learning算法与深度神经网络相结合,实现了从视觉输入到决策输出的端到端学习。然而, 虽然深度Q网络的输入可以是高维的状态空间,但是它只能处理离散的、低维的动作空间。对于连续的、高维的动作...