在RL中,我们通常假设初始状态的分布与策略无关,在意的只是动作的分布,这里动作是从当前策略采样得到的,但对应的状态用到了经验回访池中的样本,因此还是可以称为off-policy方法。回忆一下DDPG,DDPG为什么是off-policy,因为它的策略是确定性的,在求actor损失函数时无需对动作进行采样,这里使用到的采样方法实际上与常规...
off-policy就是(当前策略)给出的“理论上的下一个状态”。
SAC(softactor-critic)是一种采用off-policy方法训练的随机策略算法,该方法基于最大熵(maximum entropy...
off-policy就是可以用任意时刻的policy得到的trajectories(transitions)来做optimization.更...
on-policy就是仅仅采用最近的policy得来的trajectories(transitions)来做optimization, off-policy就是可以用...
SAC(softactor-critic)是一种采用off-policy方法训练的随机策略算法,该方法基于最大熵(maximum entropy...