1.2 DPO Direct Preference Optimization:Your Language Model is Secretly a Reward Model DPO是斯坦福在2023.05底提出的工作,主打一个硬核,直接从PPO公式推出了一个平替方案,虽然最终loss呈现的思想跟RRHF接近(chosen句子概率>rejected句子概率),但同时带有一个SFT模型的约束,可以保证在不加SFT loss的情况下训练不崩溃...
大语言模型的对齐工作,特别是近年来的关注点,如基于指令微调的Flan、InstructGPT、ChatGPT、RLHF、RRHF与DPO等,主要集中在如何让模型生成内容更符合人类的偏好。其中,RLHF算法因其能够达到最优结果而受到青睐,通过人类反馈与PPO算法对模型进行调校,有效实现模型与人类偏好的对齐。然而,RLHF训练过程复...
DPO的损失函数如下所示 和RLHF的损失函数相比,省去了RM模型的显式打分,而是将打分的分值间接的通过差值表现出来,同时也将KL散度约束写到同一个损失当中。 DPO的整个流程线如下所示: 1. 在ref model上采样y1和y2,构建偏好数据集D=\{x^{(i)}, y_w^{(i)}, y_l^{(i)}\}_{i=1}^N 2. 在给定的...
DPO是一种直接优化策略的方法,旨在通过最小化策略损失函数来改进智能体的行为。DPO利用人类反馈数据来构建损失函数,通过梯度下降等优化方法直接更新策略参数。这种方法在保持策略稳定性的同时,能够有效地利用人类反馈来改进智能体的表现。DPO适用于需要快速适应环境变化或进行微调的场景。 三、RRHF:奖励重塑与人类反馈相结...
DPO(Direct Preference Optimization) 提出了一种使用二进制交叉熵目标来精确优化LLM的方法,以替代基于 RL HF 的优化目标,从而大大简化偏好学习 pipeline。也就是说,完全可以直接优化语言模型以实现人类的偏好,而不需要明确的奖励模型或强化学习。 与现有的算法一样,DPO 也依赖于理论上的偏好模型(如 Bradley-Terry 模...
RSO方案融合了以上三者,主要是DPO和SLiC,分别对损失函数和偏好样本对的构建方式进行了改良。先说损失函数,RSO把SLiC的Hinge-loss加入到DPO的sigmoid-norm损失函数中,得到了如下的hinge-norm损失函数 再有是偏好样本构建,RSO指出既然以上对比函数的目标是拟合最优的Policy,那理论上偏好样本对也应该从π∗来构建。近似...
所以简单直观的理解也就是DPO的损失函数,让模型对偏好样本的解码概率相比ref升高,让模型对负样本的解码概率相比ref下降。和Triplet Loss的对比损失函数的思路有些相似。 我们和SLiC-HF做下对比,首先SLiC是hinge-loss(maximum-margin),DPO不是。其次SLiC是正负样本直接对比,DPO是正负样本概率分别和基准模型(SFT模型)进行...
DPO和SLiC同样是基于offline的正负偏好样本对,通过对比学习来进行偏好对齐。DPO的偏好样本标注是直接基于SFT模型生成候选,然后人工标注得到正负(win,loss)样本对,然后直接使用损失函数进行拟合,不训练reward模型。不过二者的对比损失函数不同,DPO的损失函数如下
圣采儿 认证徽章 关注 700 粉丝 50 获赞 60 抖音号:dy8dpo50ypbw38岁 家有三千金 私信关注 关注私信 作品20 喜欢 搜索Ta 的作品 视频广告投放 用户服务协议 隐私政策 账号找回 联系我们 加入我们 营业执照 友情链接 站点地图 下载抖音 抖音电商...
1.2 DPO Direct Preference Optimization:Your Language Model is Secretly a Reward Model DPO是斯坦福在2023.05底提出的工作,主打一个硬核,直接从PPO公式推出了一个平替方案,虽然最终loss呈现的思想跟RRHF接近(chosen句子概率>rejected句子概率),但同时带有一个SFT模型的约束,可以保证在不加SFT loss的情况下训练不崩溃...