我们不妨将Q表中的数转移到我们一开始的示意图中: 在得到Q表之后,我们可以根据如下的算法来选择我们的路径: 举例来说,假设我们的初始状态为2,那么根据Q表,我们选择2-3的动作,然后到达状态3之后,我们可以选择1,2,4。但是根据Q表,我们到1可以达到最大的价值,所以选择动作3-1,随后在状态1,我们按价值最大的选...
Q-Learning 算法如下,参考[1]: 图3:Q-Learning 算法 五、Deep Q-Learning算法 5.1 简介 前面介绍的Q-Learning存在的问题: 使用线性函数逼近Q值函数,是可以收敛 使用非线性函数逼近Q值函数,存在梯度扩散现象(divergence) Q-Learning在1992年就提出;然而Q-Learning因为存在上面的问题,收敛起来较困难。 2013年Deepmind...