CPO的出发点:在RL当中,通过指定reward function和约束去塑造想要的行为,要比单纯通过reward function来实现简单得多。 基于prime-dual的方法可以保证收敛到满足约束的策略,不过目前还没有方法可以在连续CMDP空间当中保证学习期间的每一个策略都保证满足约束。 本文提出了这样的一个方法。 将TRPO的目标函数: 引入约束,变...
强化学习领域中,安全强化学习(Safe RL)旨在让智能体在探索过程中考虑行为边界,而非随意行动。TRPO(Trust Region Policy Optimization)、CPO(Constrained Policy Optimization)和CUP(CUP: A Conservative Update Policy Algorithm for Safe Reinforcement Learning)是安全强化学习领域的代表性工作。TRPO通过...