SAC直接对最优动作的方差(也就是噪声的方差)也一起预测,然后随机采样。因此,SAC依然是Q-Learning算...
off-policy就是(当前策略)给出的“理论上的下一个状态”。这就是所谓同策略与异策略的区别。
SAC(softactor-critic)是一种采用off-policy方法训练的随机策略算法,该方法基于最大熵(maximum entropy)框架,即策略学习的目标要在最大化收益的基础上加上一个最大化每一时刻策略的熵。根据这短短一句话的介绍,我不禁产生了两个疑问:1.Softactor-critic中的 “soft” 有什么含义?2. 通常的随机策略算法都...
在RL中,我们通常假设初始状态的分布与策略无关,在意的只是动作的分布,这里动作是从当前策略采样得到的,但对应的状态用到了经验回访池中的样本,因此还是可以称为off-policy方法。回忆一下DDPG,DDPG为什么是off-policy,因为它的策略是确定性的,在求actor损失函数时无需对动作进行采样,这里使用到的采样方法实际上与常规...
再来说说 DDPG,这玩意虽然说自己是 PG (Policy Gradient),但它本质上是 DQN 的连续动作空间版本。在连续动作空间下, \max_a Q(s,a) 这个操作不太好取,因此构建另一个网络 \mu_{\theta}({s}) 用来代替 max 操作, \mu_{\theta}({s}) 的定义为: \mu_{\theta}({s}) \approx \arg \max _{{...
on-policy就是仅仅采用最近的policy得来的trajectories(transitions)来做optimization,off-policy就是可以用任...
这就是PPO的on policy。SAC则要复杂一点,相比于PPO的V估计是把整个轨迹的折扣和拿来当真实值的近似,...
也就是说更新用的样本并不对应到当前的策略上,而是直接面向optimal policy,那自然是off-policy了。
这就是PPO的on policy。SAC则要复杂一点,相比于PPO的V估计是把整个轨迹的折扣和拿来当真实值的近似,...
SAC只不过用了额外的一个网络拟合policy的概率分布,然后加上了entropy项。但是本质还是off-policy的...