Value Function Actor Policy V/Q/A/TD error reward state Critic Environment action
近期,GoogleAI与加州大学柏克莱分校合作研发一种新的强化学习演算法 Soft Actor-Critic(SAC)。这是一种稳定、高效的深度强化学习演算法,高度符合机器人实验的需求,也非常适合真实世界的机器人技能学习。重点是,SAC 的学习效率够高,可在数小时内学会解决真实世界的机器人问题,且同一套超参数可在多种不同环境工作。