②数据复用次数reuse times——由于 PPO 只在 trust region 内更新,使得新旧策略差异一起限制在某个范围内,只要差异不太大,那么作为 on-policy 算法就能复用训练数据。而 Repaly buffer 中的每个样本的使用次数主要与学习率、batch size 以及拟合难度有关,由于深度强化学习通常使用比深度学习更小的学习率,如(1e-3...
也就是说更新用的样本并不对应到当前的策略上,而是直接面向optimal policy,那自然是off-policy了。
在RL中,我们通常假设初始状态的分布与策略无关,在意的只是动作的分布,这里动作是从当前策略采样得到的,但对应的状态用到了经验回访池中的样本,因此还是可以称为off-policy方法。回忆一下DDPG,DDPG为什么是off-policy,因为它的策略是确定性的,在求actor损失函数时无需对动作进行采样,这里使用到的采样方法实际上与常规...
title不revisiting,但是内容很revisiting的工作。之前其他paper的工作脉络是ppo trick->on policy matters的角度来,然后这篇工作从off-policy的几个算法(MPO,AWR,SAC)的几个设计选择入手,分析了分析,具体见图。take away是table6[旺柴][旺柴] 发布于 2021-12-22 16:16 ...
SAC(softactor-critic)是一种采用off-policy方法训练的随机策略算法,该方法基于最大熵(maximum entropy...
先说结论:没问题,SAC 不需要重要性采样。 再来谈一下题主说的强化学习算法中的体系问题。个人粗浅的认为强化学习算法可以分为两个体系:基于策略评估与策略改进的体系(策略迭代),和基于价值迭代的体系。前者的理论依据为贝尔曼方程,后者的理论依据为最优贝尔曼方程。 前者首先需要对某一策略 \pi 进行评估得到 J^\pi...