SARSA是另一种无模型强化学习算法,与Q-learning类似,但SARSA是一种同轨算法(On-Policy),即在更新Q值时使用的是实际执行的行动。SARSA算法的更新公式为:Q(s,a)←Q(s,a)+α[r+γQ(s′,a′)−Q(s,a)] next_action=q_learning_agent.choose_action(next_state)next_sarsa_action=sarsa_agent.choose_ac...
2.Q-learning计算下一状态的预期收益时使用了max操作,直接选择最优动作,而当前policy并不一定能选择到最优动作,因此这里生成样本的policy和学习时的policy不同,为off-policy算法。 3.SARAS算法,基于当前的policy直接执行一次动作选择,然后用这个样本更新当前的policy,因此生成样本的policy和学习时的policy相同,算法为on-...
- 算法复杂性:通常需要额外的校正机制(如重要性采样),使得算法实现更加复杂。典型算法:- Q-learnin...
Q-learning在更新时使用的action是通过Q_max获得的,而下一回合的action则可能因探索而有所变化,体现为off-policy。相反,在Sarsa中,更新Q函数时使用的action与下一回合的action相同,呈现出on-policy特性。
一起学AI 求知若渴、虚心若愚 关注 内容简介 #AI#深度学习#机器学习#新知领航·第二期 老师的其他视频 ChatGPT中文版免费使用教程 40705:54 #5微信管理工具:清除僵尸粉【AI智能办公】WeTool 128403:59 #0Anaconda安装与环境变量设置【Jupyter Notebook使用指南】 158708:52 #13Python爬取爬取图片网站【Python...
In this tutorial, we’ll examine two different approaches to training a reinforcement learning agent: on-policy learning and off-policy learning. We’ll start by revisiting what they’re supposed to solve and determining each one’s advantages or disadvantages. 2. Reinforcement Learning Basics In ...
Looking Deeper at On-policy Learning: Interest and Emphasis State Aggregation on the 1000-state Random Walk(续) 本讲我们继续借助random walk例子,来实战演练线性方法的特征构造问题。 回顾:考虑1000个状态的random walk,从左到右编号1到1000,并且所有episode在中心附近开始,即状态500。状态转换从当前状态到其两...
具体来说,SARSA算法会根据当前状态和当前动作来更新Q值,而Q-learning则会根据当前状态和最大动作值来更新Q值。因此,SARSA更加保守,而Q-learning更加贪婪。¹²³ (1) Q-learning与Sarsa算法的区别_sarsa算法和qlearning区别_赵YN的csdn的博客 (2) 什么是 Sarsa (强化学习) - 知乎. https://zhuanlan.zhihu...
Discrete Action On-Policy Learning with Action-Value CriticYuguang YueYunhao TangMingzhang YinMingyuan ZhouPMLR
在线学习+on-policy(同策略):你玩第一关的时候,每次一学到新的技术,马上在下一个state予以利用;...