DeepSeekMath-Instruct 7B is a mathematically instructed tuning model derived from DeepSeekMath-Base 7B. DeepSeekMath is initialized with DeepSeek-Coder-v1.5 7B and continues pre-training on math-related tokens sourced from Common Crawl, together with nat
在MATH数学竞赛数据集上,我们的模型DeepSeekMath-RL 7B超过了7B~70B所有开源模型,以及大多数闭源模型(例如Inflection-2和Gemini Pro)13%的绝对值,非常接近GPT-4和Gemini Ultra性能。 其中值得注意的是,DeepSeekMath-RL 7B所有评估指标上都超过了基准模型DeepSeekMath-Instruct 7B,展示了GRPO强化学习训练的有效性。
最终,模型在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。这一表现不仅超越了Qwen2.5-Math-7B-Instruct,并且还可以和使用超过50倍数据量和更复杂组件的PRIME和rStar-MATH相媲美!其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基础模型上仅使用纯PPO方法训练的,仅采用了MATH...
项目地址:https://github.com/hkust-nlp/simpleRL-reason 他们以Qwen2.5-Math-7B(基础模型)为起点,直接对其进行强化学习。 整个过程中,没有进行监督微调(SFT),也没有使用奖励模型。 最终,模型在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。 这一表现不仅超越了Qwen2.5-Math-7B-Instruct,...
我们证明了仅通过使用指令调优数据,GRPO就能显著提高我们基于指令调优的模型DeepSeekMathInstruct的性能。
最终,模型在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。 这一表现不仅超越了Qwen2.5-Math-7B-Instruct,并且还可以和使用超过50倍数据量和更复杂组件的PRIME和rStar-MATH相媲美! 其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基础模型上仅使用纯PPO方法训练的,仅采用了MATH数据集中的...
最终,模型在 AIME 基准上实现了 33.3% 的准确率,在 AMC 上为 62.5%,在 MATH 上为 77.2%。 这一表现不仅超越了 Qwen2.5-Math-7B-Instruct,并且还可以和使用超过 50 倍数据量和更复杂组件的 PRIME 和 rStar-MATH 相媲美! 其中,Qwen2.5-7B-SimpleRL-Zero 是在 Qwen2.5-Math-7B 基础模型上仅使用纯 PPO ...
或者按其博客的说法:「没有奖励模型,没有 SFT,只有 8K 用于验证的 Math 样本,得到的模型在 AIME 上成绩为(pass@1 准确率)33.3%、在 AMC 上实现了 62.5%、在 MATH 上实现 77.2%,优于 Qwen2.5-math-7B-instruct,可与使用多 50 倍数据和更复杂组件的 PRIME 和 rStar-MATH 相媲美。」Qwen2.5...
在 AIME 基准测试中达到 33.3% 的准确率,AMC 达到 62.5%,MATH 达到 77.2%。这些成绩不仅超越了 Qwen2.5-Math-7B-Instruct,甚至可以与使用了 50 倍以上数据量的 PRIME 和 rStar-MATH 项目相媲美。值得注意的是,研究团队观察到了模型在训练过程中一个有趣的变化:在训练初期,模型会生成大量代码,随着...