DQN算法中, epsilon-greedy策略是用来对环境进行探索和对经过训练的Qnet进行利用的. 所以在实现DQN代码-候使epsilon线性下降(0.7-0.1)采样1k轮, 然后一直使用epsillon=0.1的策略采样与学习. (代码中每与环境交互一次便采样buffer+对Q网络更新一次. 详情见(D3QN)代码 而此时发生了如下图的情况
全书大部分内容基于3位作者的实践经验,涵盖马尔可夫决策过程、动态规划、免模型预测、免模型控制、深度学习基础、DQN算法、DQN算法进阶、策略梯度、Actor-Critic算法、DDPG与TD3算法、PPO算法等内容,旨在帮助读者快速入门强化学习的代码实践,并辅以一套开源代码框架“JoyRL”,便于读者适应业界应用研究风格的代码。与“蘑菇...