off-policy 设定破除了对优化数据来源的限制,过去的 transition 数据可以存下来重复利用,这样可以同时缓解 on-policy 方法的三个问题,于是就出现了 replay buffer 机制和 experience replay 经验重放的概念。示意图如下 注意,off-policy 设定中,策略更新还是 online 地进行,即每步交互都从 replay buffer 中抽取若干 tra...
on-policy:收集数据的策略和维护更新的策略为同一个策略。智能体根据当前策略和环境交互,收集一定步数的数据(s, a, r, s', terminal_flag)后进行当前策略的更新,不存在replay buffer,数据使用后即丢掉,无经验回放。 Behaviour policy(Policy used for data generation is called behaviour policy) == Policy used...
section 3.2:在 data efficiency 方面,对于 online fine-tune,发现 on-policy fine-tune 和 Monte-Carlo return 的效率,比 off-policy 的 actor-critic 低。 section 3.3:对普通 actor-critic 算法,offline 2 online 会发生可怕的事情。 在replay buffer 里面放了一些 offline dataset,但 SACfD-prior 的性能跟...
首先on-policy 只能 online 训练,因为需要检验待更新的策略。在 offline RL 方法出现之前,确实有off ...