2、PPO是其中对策略模型进行更新的强化学习方法。 3、由于PPO的方法需要加载4个模型,训练过程复杂。因此出现了DPO这种只需要加载两个模型便可训练的低成本方法。 本篇简单介绍一下RLHF和PPO/DPO的关系,由于PPO/DPO原理较为复杂,后面单开一篇对相关强化学习知识进行详细讲解。 github项目:GitHub - akaihaoshuai/baby...