所以 Iterative DPO 更类似于介于 Online 和 Offline RL 算法的中间形态。 Iterative DPO 最大的一个优点是工程实现的方便性和算法收敛效果的平衡,因为其训练为分阶段进行,也就是样本推理以及模型训练都是独立的运行阶段,通常不需要同时把所有模型加载到GPU上,也就规避了 RLHF 的 Infra 实现难题。对于推理加速也很...
我们提出了Iterative Length-Regularized DPO(iLR-DPO)算法,训练得到的模型Storm-7B在Alpaca Eval 2.0(测试大模型对齐性能的主流榜单)上超过GPT-4 Preview,目前是该榜单上的最强开源模型。 图1: AlpacaEval 2.0 排行榜 如图2所示,iLR-DPO可以在不显著增加回复长度的情况下持续地将LLM与人类偏好对齐。 图2: Storm-...
我没有再继续深究这个问题,转而思考能否用dpo去训练 2.于是我用deepseek r1 + rule reward正确的作为正例,采样模型本身错误的回答作为负例,去做dpo: 效果不错啊,而且居然难得的练dpo时的chosen reward没有降低,小刀剌屁股开了眼了,训练完我在测试集上测了一版,准确率也提升了很多,但是有限,由原来的50%准确...
这种方法的代表性工作包括通过人类反馈进行强化学习(RLHF),如Christiano等人提出的工作以及Bai等人的研究。 直接偏好优化方法:直接利用偏好数据优化模型策略,无需单独训练奖励模型,代表性工作是Direct Preference Optimization(DPO)。这种方法在稳定性和扩展性上优于基于奖励模型的方法。 尽管这些方法在优化模型与人类偏好的...
这句话道出了很多 dpo 算法变种的核心有效性. 如何实现这种保守的 reward 估计? 两种主流方式: i) directly penalize the reward estimation by an uncertainty estimator 相当于直接减掉一个 part ii) we may also use a modified target that is biased toward pessimism by penalizing the uncertainty as in Eq...