SAC(softactor-critic)是一种采用off-policy方法训练的随机策略算法,该方法基于最大熵(maximum entropy)框架,即策略学习的目标要在最大化收益的基础上加上一个最大化每一时刻策略的熵。根据这短短一句话的介绍,我不禁产生了两个疑问:1.Softactor-critic 中的 “soft” 有什么含义?2. 通常的随机策略算法...
在RL中,我们通常假设初始状态的分布与策略无关,在意的只是动作的分布,这里动作是从当前策略采样得到的,但对应的状态用到了经验回访池中的样本,因此还是可以称为off-policy方法。回忆一下DDPG,DDPG为什么是off-policy,因为它的策略是确定性的,在求actor损失函数时无需对动作进行采样,这里使用到的采样方法实际上与常规...
②数据复用次数reuse times——由于 PPO 只在 trust region 内更新,使得新旧策略差异一起限制在某个范围内,只要差异不太大,那么作为 on-policy 算法就能复用训练数据。而 Repaly buffer 中的每个样本的使用次数主要与学习率、batch size 以及拟合难度有关,由于深度强化学习通常使用比深度学习更小的学习率,如(1e-3...
title不revisiting,但是内容很revisiting的工作。之前其他paper的工作脉络是ppo trick->on policy matters的角度来,然后这篇工作从off-policy的几个算法(MPO,AWR,SAC)的几个设计选择入手,分析了分析,具体见图。take away是table6[旺柴][旺柴] 发布于 2021-12-22 16:16 ...
先说结论:没问题,SAC 不需要重要性采样。 再来谈一下题主说的强化学习算法中的体系问题。个人粗浅的认为强化学习算法可以分为两个体系:基于策略评估与策略改进的体系(策略迭代),和基于价值迭代的体系。前者的理论依据为贝尔曼方程,后者的理论依据为最优贝尔曼方程。 前者首先需要对某一策略 \pi 进行评估得到 J^\pi...
因此,SAC依然是Q-Learning算法,可以使用off-policy的技巧。这也解释了某个回答中的疑惑,原始论文的...