sft和rlhf的区别

2025-06-06 19:07:48

拼音 [ 拼音 ]

SFT+人工标注和 RLHF(强化学习)的区别 - 哔哩哔哩

与RLHF的区别 --- 通过SFT+人工标注,模型能够快速适应特定领域或任务,但需严格把控标注质量与多样性。当前趋势是结合SFT与RLHF/DPO(如Llama 3.1),在可控成本下最大化性能提升。
Trisimo崔思莫的想法: 卡神Karpathy,谈数据标记RLHF | 当你跟AI...

原因就是数据标记员素质太低,包括主管缺乏判断力和审美能力。K神也提到了RLHF和RL之间的区别。我想RLHF属于那种肤浅快速的RL,因为找不出什么严格标准,就屁股一拍,随便决定一些奖励标准。而现在能跑RL的,可能只有数学,和容易编译的代码。发布于 2024-12-01 17:42・IP 属地浙江赞同35 分享收藏 ...