如上图,在RLHF-PPO阶段,一共有四个主要模型,分别是: Actor Model:演员模型,这就是我们想要训练的目标语言模型 Critic Model:评论家模型,它的作用是预估总收益 Reward Model:奖励模型,它的作用是计算即时收益 Reference Model:参考模型,它的作用是在RLHF阶段给语言模型增加一些“约束”,防止语言模型训歪(朝不受...
3.4 Reward Model(奖励模型) 四、RLHF中的loss计算 4.1 Actor loss (1)直观设计 (2)引入优势(Advantage) (3)重新设计 (4)重新设计优势 (5)PPO-epoch: 引入新约束 (6)Actor loss小结 4.2 Critic loss (1)实际收益优化 (2)预估收益优化 【20241118更新】 去年此时我写了这篇文章,当时的主要目的是,想让...