可以更好地判断一个强化学习算法是on-policy还是off-policy,并理解为何传统的on-policy算法通常不使用经...
就像强化学习里的Reward设计,QLearning和SARSA、Off-Policy和On-Policy等,到底是追求当前爽权重最大,还是几步之内最大爽,还是N步?或者全局最大爽?人生是可以用Reinforcement learning设计出来规则的 @vczh : 人活着是为了爽的积分,一味的追求瞬时爽很容易优化到极值里,后面就不爽了。所以爽的时候要想的长远一点,怎...
在线策略(on-policy)算法表示行为策略和目标策略是同一个策略,而离线策略(off-policy)算法表示行为策...
on policy和off policy的区别就是看用来优化当前策略的轨迹是不是这个策略采样来的。
总结来说,判断一个RL算法是on-policy还是off-policy主要取决于它如何利用数据进行策略更新。而on-policy...
off policy 数据 也可以用 on policy 数据。 但是 on policy 算法只能用on policy 数据。
经验回放的前提不就是你有了很多数据集嘛,这样你不直接就用off-policy嘛,毕竟离线学习就是针对有很多...