title不revisiting,但是内容很revisiting的工作。之前其他paper的工作脉络是ppo trick->on policy matters的角度来,然后这篇工作从off-policy的几个算法(MPO,AWR,SAC)的几个设计选择入手,分析了分析,具体见图。take away是table6[旺柴][旺柴] 发布于 2021-12-22 16:16 ...