on policy和off policy的区别就是看用来优化当前策略的轨迹是不是这个策略采样来的。
总结来说,判断一个RL算法是on-policy还是off-policy主要取决于它如何利用数据进行策略更新。而on-policy...
可以更好地判断一个强化学习算法是on-policy还是off-policy,并理解为何传统的on-policy算法通常不使用经...
综上 off policy 算法可以用 off policy 数据 也可以用 on policy 数据。 但是 on policy 算法只能用...
那必然只能采用在线抽样的方法来估计这个状态的Q了,所以是on-policy。