与RLHF的区别 --- 通过SFT+人工标注,模型能够快速适应特定领域或任务,但需严格把控标注质量与多样性。当前趋势是结合SFT与RLHF/DPO(如Llama 3.1),在可控成本下最大化性能提升。
原因就是数据标记员素质太低,包括主管缺乏判断力和审美能力。K神也提到了RLHF和RL之间的区别。我想RLHF属于那种肤浅快速的RL,因为找不出什么严格标准,就屁股一拍,随便决定一些奖励标准。 而现在能跑RL的,可能只有数学,和容易编译的代码。 发布于 2024-12-01 17:42・IP 属地浙江 赞同35 分享收藏 ...