SAC(softactor-critic)是一种采用off-policy方法训练的随机策略算法,该方法基于最大熵(maximum entropy)框架,即策略学习的目标要在最大化收益的基础上加上一个最大化每一时刻策略的熵。根据这短短一句话的介绍,我不禁产生了两个疑问:1.Softactor-critic 中的 “soft” 有什么含义?2. 通常的随机策略算法...
显然,PPO的V估计,由于是累计折扣和,在不同策略下的误差会累积放大,而SAC的Q网络计算很鸡贼的一个...
title不revisiting,但是内容很revisiting的工作。之前其他paper的工作脉络是ppo trick->on policy matters的角度来,然后这篇工作从off-policy的几个算法(MPO,AWR,SAC)的几个设计选择入手,分析了分析,具体见图。take away是table6[旺柴][旺柴] 发布于 2021-12-22 16:16 ...
所以,SAC 可以看成属于价值迭代体系,也就是题主说的 Q-learning 体系,无需重要性采样。 希望能帮到题主~ 2023-07-01 补充第二种理解方式:修改后的策略迭代 - 本质上还是价值迭代。 SAC 论文中以策略评估+策略改进的形式解释了算法收敛性的问题,这与本文中说 SAC 是 Q-learning 体系似乎相矛盾,在这里大致整...
on-policy就是仅仅采用最近的policy得来的trajectories(transitions)来做optimization, off-policy就是可以用...
因此,SAC依然是Q-Learning算法,可以使用off-policy的技巧。这也解释了某个回答中的疑惑,原始论文的...
这就是PPO的on policy。SAC则要复杂一点,相比于PPO的V估计是把整个轨迹的折扣和拿来当真实值的近似,...