解决cartpole问题可以用基于价值的DQN、基于策略的Reinforce,当然还有结合了二者的Actor-Critic,本代码复现了Actor-Critic模型,代码特点是: 1. 结构清晰,注释完整 2. 代码简短,不罗嗦 3. 可视化环境、实时绘制奖励曲线、网络训练曲线,直观 4. 是入门actor-critic结构的很好的学习材料 5. 纯torch架构,适合熟悉torch的...