在RL中,我们通常假设初始状态的分布与策略无关,在意的只是动作的分布,这里动作是从当前策略采样得到的,但对应的状态用到了经验回访池中的样本,因此还是可以称为off-policy方法。回忆一下DDPG,DDPG为什么是off-policy,因为它的策略是确定性的,在求actor损失函数时无需对动作进行采样,这里使用到的采样方法实际上与常规...
PPO确实提高了样本效率,采样策略与更新策略确实有一定的差异。但是不足以称为off-policy。区别在于评估价...
SAC(softactor-critic)是一种采用off-policy方法训练的随机策略算法,该方法基于最大熵(maximum entropy)框架,即策略学习的目标要在最大化收益的基础上加上一个最大化每一时刻策略的熵。根据这短短一句话的介绍,我不禁产生了两个疑问:1.Softactor-critic中的 “soft” 有什么含义?2. 通常的随机策略算法都...
因此,SAC依然是Q-Learning算法,可以使用off-policy的技巧。这也解释了某个回答中的疑惑,原始论文的假...
不管按哪个策略来,到了这个状态的V都一样。这样就减小了策略不同的影响,使SAC可以off policy。
on-policy就是仅仅采用最近的policy得来的trajectories(transitions)来做optimization,off-policy就是可以用任...
不管按哪个策略来,到了这个状态的V都一样。这样就减小了策略不同的影响,使SAC可以off policy。
在看SAC的时候发现提到了SAC种off-policy的算法,并且也用到了经验回放技术,然而在Critic和Actor网络的参数更新公式中却没有做任何…显示全部 关注者56 被浏览26,427 关注问题写回答 邀请回答 好问题 10 添加评论 分享 登录后你可以 不限量看优质回答私信答主深度交流精彩内容一键收藏 ...
也就是说更新用的样本并不对应到当前的策略上,而是直接面向optimal policy,那自然是off-policy了。