需要读者有DQN的基础知识. 详情参考此处算法介绍和(D3QN)代码 Introduction DQN算法中, epsilon-greedy策略是用来对环境进行探索和对经过训练的Qnet进行利用的. 所以在实现DQN代码-候使epsilon线性下降(0.7-0.1)采样1k轮, 然后一直使用epsillon=0.1的策略采样与学习. (代码中每与环境交互一次便采样buffer+对Q网络更新...