1. SAC算法 1.1 SAC简介 我们之前学习了一些on-policy算法,如A2C,REINFORCE,PPO,但是他们的采样效率比较低;因此我们通常更倾向于使用off-policy算法,如DQN,DDPG,TD3。但是off-policy的训练通过不稳定,收敛性较差,对超参数比较敏感,也难以适应不同的复杂环境。2018 年,一个更加稳定的离线策略
但有经验指出不适合最优策略有大量边界动作的任务,即若最优策略下的动作大量达到边界值时效果会变差,例如在控制机器人移动时全速移动通常是最优解,则不适合使用 SAC 算法,这主要原因是 SAC 在计算策略熵时使用了 tanh() 的导数项作为修正,使得动作值接近 - 1、+1 边界值时计算误差非常大,导致梯度方向出现错误,...
离散动作空间下的Soft Actor-Critic (SAC) 算法不需要重参数化的原因是,对于离散动作空间,不同于连续...
两个actor一个处理离散 一个处理连续。 loss 分别算了 然后加起来。
00:00/00:00 中科院自动化所基于自动编码器的离散SAC算法;三星入局ChatGPT 人工智能产业链联盟发布于:山东省2023.05.16 13:26 +1 首赞 中科院自动化所基于自动编码器的离散SAC算法;三星入局ChatGPT
有的,不过好像没发表,挂在arxiv上了