sarsa算法和q-learning算法的区别

2025-02-21 13:12:59

拼音 [ 拼音 ]

强化学习中Q-Learning算法和SARSA算法的区别 - 程序员大本营

公式Q-learning SARSA 区别其实我认为俩者的区别就是在于更新的时候有没有考虑到e-greed贪恋算法中的随机这个因素,sarsa考虑到了,Q-learning没有考虑。为什么这么说呢? 假设我们有三个状态S1 S2 S3 我们在使用SARSA的时候会用到S1 A1 R 和S2 A2(sarsa的构成),这个时候我们发现,我们的机器其实已经走到了S3这个...
强化学习中的Q-learning算法和Sarsa算法的区别 - 程序员大本营

公式对比Sarsa:Q-learning: 二者的区别: 网上都在说sarsa是一个保守的算法,而q-learning是一个更价激进的算法,这是为什么呢?Sarsa是一个说到做到的算法,Q(s,a)Q(s,a)Q(s,a)的估计值与下一个状态S‘的最大值Q(s′,a′)Q(s',a')Q Sarsa 的是在s2上选取的a2的Q值. 最后像Qlearning一样, 求出...
深度学习中sarsa算法和Q-learning算法的区别 - 百度知道

sarsa-learning q-learning都是reinforcement learning中用来解决MDP最优化值函数问题的temporal-difference方法，跟DL没啥卵关系，虽然RL可以深度化区别在于，在更新Q(S_t, A_t)时，前者Q(S_t+1)的动作A_t+1通过episinon-greedy确定，而后者的A_t+1通过greedy确定；共同点在于S_t选择动作的策略是...