优点: 1. 适用于连续动作空间:Actor-Critic算法能够处理连续动作空间的强化学习问题,而不需要将连续动作离散化。这使得算法能够处理更复杂、更精细的动作控制问题。 2. 高效地利用数据:Actor-Critic算法使用异步梯度下降方法进行训练,能够在多个线程或进程中并行计算,从而提高数据利用效率和训练速度。
哪些指的差,Critic通过学习环境和奖励之间的关系,能看到现在所处状态的潜在奖励,所以用它来指点Actor便能使Actor每一步都在更新,如果使用单纯的Policy Gradients,,Actor只能等到回合结束才能开始更新。
单项选择题在Actor-Critic算法中,结合了哪两种方法的优点?() A.Value-Based和Policy-Based B.Model-Based和Model-Free C.Q-Learning和SARSA D.贝尔曼方程和高斯分布 E.强化学习和监督学习 点击查看答案 您可能感兴趣的试卷
哪些指的差,Critic通过学习环境和奖励之间的关系,能看到现在所处状态的潜在奖励,所以用它来指点Actor便能使Actor每一步都在更新,如果使用单纯的Policy Gradients,,Actor只能等到回合结束才能开始更新。
劣势:取决于Critic价值判断,但是Critic难收敛,再加上Actor的更新,就更难收敛。为了解决收敛问题,DeepMind团队融合了DQN的优势,解决了收敛难的问题。 下面是基于Actor Critic的Gym Cartpole实验: image 这套算法是在普通的Policy Gradient的基础上修改的,如果对Policy Gradient算法那不了解的可以看一下我之前的文章。