经过不停的迭代,最终我们的Q表为: 我们不妨将Q表中的数转移到我们一开始的示意图中: 在得到Q表之后,我们可以根据如下的算法来选择我们的路径: 举例来说,假设我们的初始状态为2,那么根据Q表,我们选择2-3的动作,然后到达状态3之后,我们可以选择1,2,4。但是根据Q表,我们到1可以达到最大的价值,所以选择动作3-...
7.2 Deep-Q-Learning 7.3 智能体定义 参考文献 引言:在强化学习中,智能体通常面临复杂困难的环境,智能体需要通过不断的从环境中学习和试错,学习出更优的策略来应对未知世界。本文介绍了时间差分(TD)、SARSA、Q-Learning等算法,最后介绍Deep-Q-Learning并给出了Deep-Q-Learning的pytorch代码例子。 一、简介 在强化...