PRM800K是一个过程监督数据集,包含80万个针对MATH数据集中问题的模型生成解决方案的步骤级正确性标签 皮都坦率的法夏 9枚 openai 其他 人类偏好对齐 0 4 2025-03-31 详情 相关项目 评论(0) 创建项目 数据集介绍 PRM800K:一个过程监督数据集 介绍了其中提到的PRM800K数据集。PRM800K是一个过程监督数据集,包...
来自openai,2023.05月的论文;用Process-supervised Reward Models(PRMs,对每个reasoning step进行正确性打分,如图2)在更具挑战的数学数据集MATH上进行的实验;结论是:在用于best-of-N sampling时,PRMs比ORMs(只给整体answer打分)更好(见图3),且候选solution越多时效果差距越大,说明PRMs比ORMs更鲁棒,更不容易被“表面...