PPO算法它的原理是目标仍然是on-policy算法,但是通过importance sampling技术获得了off-policy的能力。还是...
在强化学习领域,TRPO与PPO算法被划分为on-policy算法,这一分类基于它们的特定特性与更新策略。首要关注点在于TRPO算法,其本质上是on-policy算法,虽表面看似与off-policy算法相似,通过使用old policy的分布进行重要性采样。然而,TRPO的独特之处在于,它仅使用特定策略下采样的数据来更新当前策略,而非任...
实际上是带有off-policy的性质的。但是这并不完全符合off-policy的定义,所以它本质还是属于on-policy的...
至于为什么是on policy,因为理论推导时,有一些步骤依赖于on policy 的采样才严格成立。具体可参见trpo附...
这里的理论依据依然是与IS无关的,所以整体上还是on-policy。4. A3C是on-policy是毫无疑问的,其他...
可以理解为采样的策略和更新的策略都是新策略,所以ppo是on-policy的。
个人理解,trpo和ppo只是假装用了off policy,因此他的update不能离原policy太远,否则会变得很不stable...
所以从一开始我们定义区分on/off policy的意义来说,我们必须得承认trpo和ppo就是off-policy的算法,但是...
属于on-policy的算法,但由于使用了多步的梯度上升进行优化,看起来更像off-policy策略更新了,但其实...