对在线Q-learning的第二个修改旨在进一步提高方法与神经网络的稳定性,就是在Q-learning更新中使用一个单独的网络来生成目标y j ,即,建立目标网络。更准确的说,每一次C更新,我们都会克隆网络Q,得到一个目标网络Q ^,并使用Q ^ 来生成Q-learning目标y j ,用于后续C更新Q。与标准的在线Q-learning相比,这种修改使...
未来工作可以进一步探索DQN算法的改进方法,如结合其他深度学习技术、优化神经网络结构、调整超参数等,以提高算法的性能和泛化能力。同时,也可以将DQN算法应用于更复杂的实际场景中,解决更多具有挑战性的控制问题。 2 运行结果 部分代码: Input : Qlearning( No of Epochs, No of Itteration in each Epoch, Dicount...