prm800k+数据集

2025-06-02 18:12:17

拼音 [ 拼音 ]

PRM800K_数据集-飞桨AI Studio星河社区

PRM800K是一个过程监督数据集,包含80万个针对MATH数据集中问题的模型生成解决方案的步骤级正确性标签皮都坦率的法夏 9枚 openai 其他人类偏好对齐 0 4 2025-03-31 详情相关项目评论(0) 创建项目数据集介绍 PRM800K:一个过程监督数据集介绍了其中提到的PRM800K数据集。PRM800K是一个过程监督数据集,包...
...token)上continual pre-training得来;3. 论文用了800K的

来自openai,2023.05月的论文;用Process-supervised Reward Models(PRMs,对每个reasoning step进行正确性打分,如图2)在更具挑战的数学数据集MATH上进行的实验;结论是:在用于best-of-N sampling时,PRMs比ORMs(只给整体answer打分)更好(见图3),且候选solution越多时效果差距越大,说明PRMs比ORMs更鲁棒,更不容易被“表面...