公式Q-learning SARSA 区别 其实我认为俩者的区别就是在于更新的时候有没有考虑到e-greed贪恋算法中的随机这个因素,sarsa考虑到了,Q-learning没有考虑。为什么这么说呢? 假设我们有三个状态S1 S2 S3 我们在使用SARSA的时候会用到S1 A1 R 和S2 A2(sarsa的构成),这个时候我们发现,我们的机器其实已经走到了S3这个...
公式对比Sarsa:Q-learning: 二者的区别: 网上都在说sarsa是一个保守的算法,而q-learning是一个更价激进的算法,这是为什么呢?Sarsa是一个说到做到的算法,Q(s,a)Q(s,a)Q(s,a)的估计值与下一个状态S‘的最大值Q(s′,a′)Q(s',a')Q Sarsa 的是在s2上选取的a2的Q值. 最后像Qlearning一样, 求出...
sarsa-learning q-learning都是reinforcement learning中用来解决MDP最优化值函数问题的temporal-difference方法,跟DL没啥卵关系,虽然RL可以深度化 区别在于,在更新Q(S_t, A_t)时,前者Q(S_t+1)的动作A_t+1通过episinon-greedy确定,而后者的A_t+1通过greedy确定;共同点在于S_t选择动作的策略是...