PPO的目的就是把PG算法从on-policy转化为类似off-policy算法
on-policy就是(采样策略)采样得到的下一个状态,off-policy就是(当前策略)给出的“理论上的下一个状...
在强化学习领域,TRPO与PPO算法被划分为on-policy算法,这一分类基于它们的特定特性与更新策略。首要关注点在于TRPO算法,其本质上是on-policy算法,虽表面看似与off-policy算法相似,通过使用old policy的分布进行重要性采样。然而,TRPO的独特之处在于,它仅使用特定策略下采样的数据来更新当前策略,而非任...
那么进入正题,我们一般认为PPO是off-policy的原因就是因为PPO使用actor网络去sampler然后填充经验池,然后使用这个经验池中的数据去更新这个actor多个epoch,当更新到第二个epoch的时候那么actor就变成了actor1,然而经验池中的数据仍然是actor网络采样得到的,那么就造成了从更新第二个epoch开始采样的actor和要优化的actor不是...
个人理解:PPO在小范围内,也就是采样时所采取的策略与train时的策略相差不大时,通过重要性采样的原理...
在trpo和ppo里,用来更新策略的样本都是由策略生成的,用完就扔了,所以是on policy的。至于为什么是on...
如果PPO更新的epoch=1,minibatch=1,不管有没有用IS,很典型的这里就是on-policy,应该没有疑问。
trpo和ppo是on policy的,因为做过importance sampling之后,期望是对改进策略的,即采样就是用当前策略。
这就是PPO的on policy。SAC则要复杂一点,相比于PPO的V估计是把整个轨迹的折扣和拿来当真实值的近似,...