之前在 PPO 和 DPO 方面的研究关注的是成对偏好,而 RLHF 方面的研究则是收集逐列表的偏好来加速数据收集过程,之后再将它们转换成成对偏好。尽管如此,为了提升 LLM 的性能,直接使用逐列表的数据集来执行偏好优化是可行的。以下三篇论文专门讨论了这种方法。LiPO,逐列表偏好优化,参阅论文《LIPO: Listwise prefer...
在PPO中,为了提高算法的探索能力,我们一般在actor的loss中增加一项策略熵,并乘以一个系数entropy_coef,使得在优化actor_loss的同时,让策略的熵尽可能大。一般我们设置entropy_coef=0.01。 设置这个是因为如果策略总是倾向于选择某些特定的文本生成方式,那么它可能会错过一些其他的文本生成方式带来的更好的奖励。通过增加...
DPO算法的目的就是最大化奖励模型,使得奖励模型对chosen和rejected的差值最大,这样模型就可以学到人类偏好。反映到模型中就是:模型更新是最小化loss,根据以上公式,最小化loss等价于最大化以下部分。 使用DPO 替代RLHF。 在RLHF中,要求额外训练一个reward model。而DPO的作者则提出了一个可以跳过这一步,直接把huma...
由于优势通常不为零,PPO Loss 会产生非零梯度,从而促使模型在更新过程中调整策略,使其生成结果更符合奖励信号。 这就是为什么即使在第一次更新前,新模型与旧模型完全一致,PPO Loss 也不会为零的原因。 DPO:看着棋谱学下棋 前面我们提到,PPO很像你在真实棋盘上有一位教练随时指导,边对弈边在真实环境中改进策略(...
为了训练 InstructGPT,要用到三个数据集:1.SFT 数据集:包含用于训练 SFT 模型的标注者演示。2.RM(奖励模型)数据集:由人类标注者对模型输出的排名构成,用于训练奖励模型。3.PPO 数据集:由用作 RLHF 微调输入的 prompt 构成。 训练后的 InstructG...
大语言模型微调中训练 RL 模型采用的优化算法是 PPO(Proximal Policy Optimization,近端策略优化)算法,即对设定的目标函数通过随机梯度下降进行优化。近端策略优化是一种深度强化学习算法,用于训练智能体在复杂环境中学习和执行任务。通过智能体的训练,使得其在与环境的交互中能够最大化累积回报,从而达成指定任务...
以PPO 为代表的 On-Policy 路线 以DPO 为代表的 Off-Policy 路线 那么,什么是 On-Policy,什么是 Off-Policy 呢?可以用一个简洁的判定方法: On-Policy:训练过程中,需要模型亲自参与“生成”来收集新的数据样本。 Off-Policy:训练过程中,不需要“在线”生成,更多依赖事先收集到的(或由别的策略产生的)数据进行...
为了训练 InstructGPT,要用到三个数据集:1.SFT 数据集:包含用于训练 SFT 模型的标注者演示。2.RM(奖励模型)数据集:由人类标注者对模型输出的排名构成,用于训练奖励模型。3.PPO 数据集:由用作 RLHF 微调输入的 prompt 构成。 训练后的 InstructG...
2.1 PPO 强化学习概念 大语言模型完成奖励模型的训练后,下一个阶段是训练强化学习模型(RL 模型),也是最后一个阶段。大语言模型微调中训练 RL 模型采用的优化算法是 PPO(Proximal Policy Optimization,近端策略优化)算法,即对设定的目标函数通过随机梯度下降进行优化。近端策略优化是一种深度强化学习算法,用于训练智能体...
人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF 1.奖励模型的训练 1.1大语言模型中奖励模型的概念 在大语言模型完成 SFT 监督微调后,下一阶段是构建一个奖励模型来对问答对作出得分评价。奖励模型源于强化学习中的奖励函数,能对当前的状态刻画一个分数,来说明这个状态产生的价值有多少。在大语言模型微调...