Vanilla Policy Gradient 背景 速览 关键方程 探索与利用 伪代码 文档 保存的模型的内容 参考 相关论文 为什么是这些论文? 其他公开实现 背景¶ (前一节:强化学习介绍:第三部分) 策略梯度背后的关键思想是提高导致更高回报的动作的概率,并降低导致更低回报的动作的概率,直到你获得最佳策略。
Schulman 2016(a) is included because Chapter 2 contains a lucid introduction to the theory of policy gradient algorithms, including pseudocode. Duan 2016 is a clear, recent benchmark paper that shows how vanilla policy gradient in the deep RL setting (eg with neural network policies and Adam ...