经过不停的迭代,最终我们的Q表为: 我们不妨将Q表中的数转移到我们一开始的示意图中: 在得到Q表之后,我们可以根据如下的算法来选择我们的路径: 举例来说,假设我们的初始状态为2,那么根据Q表,我们选择2-3的动作,然后到达状态3之后,我们可以选择1,2,4。但是根据Q表,我们到1可以达到最大的价值,所以选择动作3-...
Deep-Q-Learning 算法如下,参考[1]: 图4:Deep-Q-Learning 算法 主要步骤: 按概率\epsilon进行探索; 回放内存,将样本放入D中; 使用固定目标网络预测; 梯度更新\theta; 定期更新目标网络。 六、总结 我们将时间差分、SARSA、Q-Learning的关键式子汇总如下: \begin{aligned} V(S_t) &\leftarrow V(S_t) +...