TRPO 算法 (Trust Region Policy Optimization)和PPO 算法 (Proximal Policy Optimization)都属于MM(Minorize - Maximizatio)算法。 接下来,阿里云信息服务 将为大家介绍基础的MM算法,并且通过几个步骤推导出TRPO和PPO的目标函数。 本文之中,将会展示数学细节给这些好奇的、想了解这些目标函数背后原因的朋友们。 Surrogate...