这件事在BT model的历史上被大量研究过,文献中称为Bradley-Terry regression。延续这一思路,我们的文章在LLM alignment这个特殊场景下,给出了使用Siamese MLP结构实现BT regression的收敛性证明。 1.2 Bradley-Terry背后的假设 当我们谈论Preference是一场比赛,并且尝试用Bradley-Terry model去刻画比赛结果的时候,我们假设...
一年前的2023年十月,我在进行一场题为《LLM时代下的RL视角》(孙浩:LLM时代的RL视角:RL能做什么,RL还需要做什么)的报告中加入了一段关于使用Bradley-Terry model进行Reward Modelling的讨论,然后在调研了一个月后写了一篇知乎,试图梳理了Bradley-Terrymodel的历史,以及尝试理解这个模型的优劣。 孙浩:【RLxLLM 基础】...
在网上查Bradley–Terry Model,搜到的结果五花八门,大概是说这个模型也用于对paired competition双方获胜的概率进行建模,给定选手 i , j , 以及二者的分数 S_i , S_j , Bradley-Terry Model假设选手 i 获胜的概率为 P(i\succ j) = \frac{S_i}{S_i+S_j} 。但是看完前面的经典Elo以及理解了经典Elo背...
Bradley-Terry模型是一种用于估计竞争者在成对比较中相对实力的统计模型。这个模型最初由R. A. Bradley和M. E. Terry在1952年提出。它通常用于处理比如比赛、比较或选择偏好等情境中的成对比较数据。 在Bradley-Terry模型中,每个竞争者被赋予一个实力参数。这些参数用于预测在任意两个竞争者之间的比较结果。模型的...
榜单算法全新升级,对原始的 Bradley-Terry 统计算法进行了改进,通过引入控制变量来降低混淆因素的影响,让模型排名更加科学、精准。 新增20+ 全新模型,涵盖国内外商业模型及开源模型,进一步丰富了对战体验。 魔搭社区体验链接: https://www.modelscope.cn/studios/opencompass/CompassArena ...
SPPO:基于自我博弈的大模型对齐方法 | 传统的人类反馈强化学习(RLHF)方法依赖于 Bradley-Terry 模型等参数模型,无法很好地捕捉人类偏好的不稳定性和不理性。最新进展表明,直接使用偏好概率可以更准确地反映人类偏好,从而实现更灵活、更准确的语言模型对齐。
其次,我们经常希望将语言模型与多个属性对齐,那么应该如何组合多个奖励模型? 使用对齐程序的概率解释,研究团队确定了(常见情况的)从 Bradley-Terry 偏好模型学习的奖励的自然变换选择。这种导出变换具有两个重要属性。第一,它强调改进表现不佳的输出,而不是已经得分很好的...