实验结果令人振奋:在五个具有潜在矛盾目标的多任务后训练环境中,CGPO显著优于基线RLHF方法。特别是,CRPG优化器在数学、编码推理等任务上表现最佳,而CRRAFT优化器则在AlpacaEval-2等基准测试中脱颖而出。与传统PPO方法相比,CGPO不仅避免了性能退化,还在训练过程中持续提升各项指标,充分展示了多元评判在防止奖励黑客问题...
1、性能提升:在多个基准测试(如 DROP、WinoGrande、GSM8K、MMLU-STEM 等)上,使用 CODEI/O 和 CODEI/O++ 训练的模型表现优于单阶段基线和其他数据集(如 WebInstruct、OpenMathInstruct2 等),在几乎所有基准测试中都显示出一致的改进,而不仅仅是代码相关任务,还包括逻辑、符号、数学、科学和常识推理等任务。2、...