由于on-policy只能利用当前策略下的数据,因此它的数据利用效率相对较低。而off-policy可以利用所有的数据进行学习,因此它的数据利用效率相对较高。 3.稳定性和收敛速度不同 on-policy方法通常有更好的稳定性和更快的收敛速度,因为它严格按照当前策略进行。而off-policy方法由于可以利用其他策略的经验,可能会...
前面提到off-policy的特点是:the learning is from the dataoffthetarget policy,那么on-policy的特点就是:the target and the behavior polices are the same。也就是说on-policy里面只有一种策略,它既为目标策略又为行为策略。SARSA算法即为典型的on-policy的算法,下图所示为SARSA的算法示意图,可以看出算法中只有...
在强化学习过程中我们一般涉及到两个策略: 我们称采样数据的策略为行为策略(behavior policy),称用这些数据来更新的策略为目标策略(target policy)。同策略(on-policy)算法表示行为策略和目标策略是同一个策略;而异策略(off-policy)算法表示行为策略和目标策略不是同一个策略。Sarsa 是典型的在线策略算法,而 Q-learn...
君王可以选择微服私访,亲自感受百姓生活(On-policy),虽能亲眼所见,但力量有限,难以全面掌握;另一选择则是派遣多位官员去收集信息,而君王则在宫中聆听汇报(Off-policy)。 Q-learning与Sarsa对比剖析: 这两者均属于基于时间差分的强化学习策略,关键差异在于Q-learning采用off-policy(含目标网络和行为网络),而Sarsa则为...
1.on-policy与off-policy Sarsa(on-policy)优化的是实际上执行的策略,拿下一步一定执行的action来优化Q表格,Sarsa知道自己 下一步会跑到悬崖去,所以在这一步它会尽可能的离悬崖远一点,保证下一步即使是随机动作,也会在安全区域内。 off-policy在学习的过程中,保留2种策略:1)希望学到的最佳的目标策略 (target...
3. On-policy 算法常见超参数 由于on-policy 是利用 replay buffer 中相同策略产生数据来更新策略网络的,所以部分超参数在设计上与 off-policy 具有天然地不同。 (1) Buffer Size 应大于等于单轮同一策略采样步数 (2) Batch Size 有关经验建议是 on-policy 方法使用稍大的学习率(2e-4,即 0.0002)以及更大的...
同策略(on-policy):要学习的智能体和与环境交互的智能体是同一个时对应的策略。 异策略(off-policy):要学习的智能体和与环境交互的智能体不是同一个时对应的策略。 重要性采样(important sampling):使用另外一种分布,来逼近所求分布的一种方法,在强化学习中通常和蒙特卡洛方法结合使用,公式如下: $$ \int f(...
强化学习On-policy vs Off-policy 这里我们讲讲强化学习中on-policy和off-policy的区别。 实际上这个区别非常简单,就是说如果算法在更新它的policy的时候,它是依赖于前面的Q value function的话,那么它就是on-policy的。反之如果它是依赖于随机的一个输入或者人为的操控,那么它就是一个off policy的。
on-policy方法在学习和决策过程中始终使用相同的策略,也就是说,它在进行策略更新时只考虑当前策略下的经验。而off-policy方法则可以利用从其他策略中得到的经验进行学习,也就是说,它在进行策略更新时可以考虑非当前策略下的经验。 2.数据利用效率不同 由于on-policy只能利用当前策略下的数据,因此它的数据利用效率相对...
Monte-Carlo对off-policy进行更新使用TD对off-policy进行更新使用Q-learning进行off-policy的更新上一节讲到的是对未知MDP的valuefunction进行估计,这一节是对未知MDP的valuefunction进行优化。估计这部分的东西可以用于预测,优化valuefunction就可以用于控制。使用Model-Free进行控制的例子:On-Policy ...