退而求其次(考虑in-sample mean优化方法,同输入内取loss mean),我们引入 y_w 和y_l 相对权重的概念,也即随着 \pi_{\theta} 的变化, y_w 相对于 y_l 出现次数的变化。直观上来说,随着 y_w 对应概率的上升, y_l 对应概率的下降, y_w 相对于 y_l 出现次数应该上升,如果采用in-sample mean的优化...
过拟合会降低模型对新提示的泛化能力,表现为训练不稳定:也许在这些seen prompt上loss降低很多,但换个prompt模型就不一定表现好。 梯度信号相关及放大:同一prompt下的多条偏好对并非独立样本,它们的输出来源相关,排序也是相关的,因此提供的训练信号可能是高度相关甚至冗余的。模型在针对这些对进行梯度下降时,梯度方向可能...
我在设置BatchSize的时候,首先选择大点的BatchSize把GPU占满,观察Loss收敛的情况,如果不收敛,或者收敛效果不好则降低BatchSize,一般常用16,32,64等。 Experimence Replay Buffer经验回放缓存 对训练影响较大,通常 ~ ,具体多大需要调参 在简单的任务中(训练步数小于1e6),对于探索能力强的DRL算法,通常在缓存被放满前...
📚 前言:在DPO(Direct Preference Optimization)中,chosen reward下降的主要原因是Brandly-Terry模型的偏好Loss。为了解决这个问题,以下是一些相关的论文:📖 KTO:Model Alignment as Prospect Theoretic Optimization 📖 NCA:Noise Contrastive Alignment of Language Models with Explicit Rewards 📖 β-DPO:Direct Pr...
CRINGE,参阅论文《The cringe loss: Learning what language not to model》。 二元反馈 事实证明,收集偏好反馈比收集二元反馈(比如点赞或点踩)的难度大,因此后者可促进对齐过程的扩展。KTO 和 DRO 这两项研究关注的便是使用二元反馈来对齐 LLM。 KTO...
polynomial 策略的幂数 polynomial 策略的幂数(Polynomial Decay Power),是指在多项式衰减学习率调整策略中,用于控制学习率下降曲线陡峭程度的指数。幂数越大,可以避免陷入局部最优;幂数越小,可以使模型训练过程稳定。 验证步数 验证步数(Validation Steps),计算验证集Loss的间隔步数;为0时不开启验证,没有相关指标。 DPO...
我相信绝大多数实操过DPO训练的同学都会发现一个反直觉的现象。就是看logp的评估曲线,你会发现无论数据还是测试集中被preferred的数据,经过DPO finetune后被sample到的概率反而下降,而不是上升了。只不过那个rejected response的logp下降的更快,才让loss function持续下降(因为reward margin上升了)。
CRINGE,参阅论文《The cringe loss: Learning what language not to model》。 二元反馈 事实证明,收集偏好反馈比收集二元反馈(比如点赞或点踩)的难度大,因此后者可促进对齐过程的扩展。KTO 和 DRO 这两项研究关注的便是使用二元反馈来对齐 LLM。 KTO,Kahneman-Tversky 优化,参阅论文《KTO: Model alignment as pro...
OpenAI 发现 RLHF 有助于对齐,但也可能导致模型在某些 NLP 基准上的性能下降,这个现象被称为「对齐税(alignment tax)」。其开发的 InstructGPT 模型有 1.3B 参数。相反,Anthropic 的研究者评估了大小在 13M 到 52B 之间的 7 种不同模型,这些模型的大小按 4 倍的几何级数增长。