1.策略更新方式不同 on-policy方法在学习和决策过程中始终使用相同的策略,也就是说,它在进行策略更新时只考虑当前策略下的经验。而off-policy方法则可以利用从其他策略中得到的经验进行学习,也就是说,它在进行策略更新时可以考虑非当前策略下的经验。 2.数据利用效率不同 由于on-policy只能利用当前策略下...
(本文尝试另一种解释的思路,先绕过on-policy方法,直接介绍off-policy方法。) RL算法中需要带有随机性的策略对环境进行探索获取学习样本,一种视角是:off-policy的方法将收集数据作为RL算法中单独的一个任务,它准备两个策略:行为策略(behavior policy)与目标策略(target policy)。行为策略是专门负责学习数据的获取,具有...
1.on-policy与off-policy Sarsa(on-policy)优化的是实际上执行的策略,拿下一步一定执行的action来优化Q表格,Sarsa知道自己 下一步会跑到悬崖去,所以在这一步它会尽可能的离悬崖远一点,保证下一步即使是随机动作,也会在安全区域内。 off-policy在学习的过程中,保留2种策略:1)希望学到的最佳的目标策略 (target...
君王可以选择微服私访,亲自感受百姓生活(On-policy),虽能亲眼所见,但力量有限,难以全面掌握;另一选择则是派遣多位官员去收集信息,而君王则在宫中聆听汇报(Off-policy)。 Q-learning与Sarsa对比剖析: 这两者均属于基于时间差分的强化学习策略,关键差异在于Q-learning采用off-policy(含目标网络和行为网络),而Sarsa则为...
on-policy:行动策略和目标策略是同一个策略 off-policy:行动策略和目标策略不是同一个策略 2. 什么是...
on-policy方法在学习和决策过程中始终使用相同的策略,也就是说,它在进行策略更新时只考虑当前策略下的经验。而off-policy方法则可以利用从其他策略中得到的经验进行学习,也就是说,它在进行策略更新时可以考虑非当前策略下的经验。 2.数据利用效率不同 由于on-policy只能利用当前策略下的数据,因此它的数据利用效率相对...
同样在解决方案上存在着两种方法对应着这两类问题描述,即Dynamic Programming(DP)和Stochastic Method,其中DP方法可以分为Policy Iteration与Value Iteration,统计方法皆以Monte Carlo为基础,延申后产生Temporal-Difference(TD)与TD(λλ)算法,并可再细分为on-policy的SARSA算法与off-policy的Q-learning。依据这个分类规则...
在强化学习领域,on-policy与off-policy策略在更新Q值时的操作方法存在本质差异。on-policy策略在学习过程中同时使用当前策略进行决策与更新。这意味着学习算法会直接根据当前策略的行动选择来修正Q值估计。例如,在使用策略梯度方法时,Q值的更新直接与当前策略相关,这种策略被称为on-policy策略。反之,off-...
on-policy与off-policy的本质区别在于更新Q值时所使用的方法是沿用既定的策略还是使用新策略。前者为on-policy,后者为off-policy。这种策略的区别主要在于,on-policy算法在学习过程中会逐步优化策略,但可能需要更多的时间来达到稳定状态;而off-policy算法则可以利用过去的经验,但需要处理策略变化的问题。...
(5) 强化学习中的奇怪概念(一)——On-policy与off-policy - 知乎. https://zhuanlan.zhihu.com/p/346433931 Accessed 2023/3/24. SARSA和Q-learning都是强化学习中的经典算法,它们的主要区别在于更新策略的不同。SARSA是一种on-policy算法,即在训练过程中采用的策略和学习训练完毕后拿去应用的策略是同一个。而...