每次迭代中,我们都让代理人(agent)从state = 8出发,根据ε-greedy选择动作,再贪心地根据Q(S,A) <-- Q(S,A) + α[R+γmax{Q(S',A)} - Q(S,A)]公式来更新当前的Q值,直到走到最终状态(最终状态包括3和7);依次重复以上动作,直至迭代完设定的次数。(当然我们可以根据q值变化大小的绝对上限来终止循环...
NIPS DQN在基本的Deep Q-Learning算法的基础上使用了Experience Replay经验池. 通过将训练得到的数据储存起来然后随机采样的方法降低了数据样本的相关性, 提升了性能, 接下来, Nature DQN做了一个改进, 就是增加Target Q网络. 也就是我们在计算目标Q值时使用专门的一个目标Q网络来计算, 而不是直接使用预更新的Q网...