RLHF(Reward Learning from Human Feedback,基于人类反馈的强化学习)框架应运而生,它通过引入人类反馈来优化模型,而PPO(Proximal Policy Optimization,近端策略优化)、DPO(Direct Preference Optimization,直接偏好优化)以及ORPO(此处作为概念提及,详细展开需进一步研究,本文重点聚焦PPO与DPO)等算法则是这一框架下的核心技...
直接 DPO 开始训练就完了,完美的数据闭环,alignment 的论文有一个特点,就是数学推导过程超级的长(可能最初的就是强化学习的理论得来,数学基因在那里,也可能作者写论文的时候没啥好写的,开始秀起数学能力了,能占篇幅哈哈哈)。
值得注意的是,在受控情绪生成(IMDB 情感分析数据集)和单轮对话数据集中,TDPO 的微调比 DPO 达到了更好的平衡,并且与基于 DPO和 PPO 的 RLHF 方法相比,显著提高了生成响应的质量。 DPO,TDPO1,TDPO2 的目标函数如下,sg 表示的是 stop gradient 操作,TDPO1 和 TDPO2 通过增加额外的参数对KL散度进行精细化的...
2.分子部分在训练的是 好样本的最大似然概率要大于坏样本的概率,这意味着: 如果好样本的概率是0.9,坏样本的概率是0.7,那么训练之后,好样本的概率降低到0.6,坏样本的概率降低到0.3也是好的梯度。 KTO: 一句话总结:与DPO类似,差异在给好坏样本独立计算且可配比不同权重,希望好样本相对原模型的概率变大+新模型相对...
ORPO,比值比偏好优化,参阅论文《ORPO: Monolithic preference optimization without reference model》。 PAFT,并行微调,参阅论文《PAFT: A parallel training paradigm for effective llm fine-tuning》。 长度控制式 DPO 和无参考 DPO 之前有研究表明,L...
后面出现了非 RL 的技术,典型的就是 DPO(直接构造偏好数据集进行优化),然后有一些工作觉得 SFT+RLHF 不是 end2end,索性直接在 SFT 上加一个 alignment 的 loss,这个典型的就是 ORPO。 还有一部分工作觉得 DPO 训练的 pair-wise(x,y_w,yl)的数据集获取很困难,于是有了 point-wise(x,y,label)的方法,...
ORPO,比值比偏好优化,参阅论文《ORPO: Monolithic preference optimization without reference model》。 PAFT,并行微调,参阅论文《PAFT: A parallel training paradigm for effective llm fine-tuning》。 长度控制式 DPO 和无参考 DPO 之前有研究表明,LLM 的输出往往过于冗长。为了解决这个问题,R-DPO 和 SimPO 的...
ORPO,比值比偏好优化,参阅论文《ORPO: Monolithic preference optimization without reference model》。 PAFT,并行微调,参阅论文《PAFT: A parallel training paradigm for effective llm fine-tuning》。 长度控制式 DPO 和无参考 DPO 之前有研究表明,LLM 的输出往往过于冗长。为了解决这个问题,R-DPO 和 SimPO 的...
2⃣️DPO(直接构造偏好数据集优化)中 SFT+RLHF 被认为不是 end2end,因此有人在 SFT 上直接添加了 alignment 的 loss,如 ORPO。 3⃣️针对获取 DPO 训练所需的 pair-wise 数据集困难,有人提出了 point-wise 方法,如 KTO。同时,也有优化 Alignment 输出长度的方法,如添加正则化项等。
ORPO算法试图在保留PPO和DPO优点的同时,进一步提高模型的适应性和灵活性。 ORPO算法的核心思想是在线更新奖励模型和策略模型,通过不断迭代优化,使模型能够更好地理解和满足人类的偏好。具体而言,ORPO算法可以在训练过程中实时收集人类反馈数据,用于更新奖励模型;同时,利用更新后的奖励模型作为反馈信号,通过强化学习算法...