本文引入 DeepSeekMath 7B,它继续使用来自 Common Crawl 的 120B 个数学相关tokens以及自然语言和代码数据,对DeepSeek-Coder-Base-v1.5 7B 进行预训练。DeepSeekMath 7B 在不依赖外部工具包和投票技术的情况下,在竞赛级MATH基准上取得了 51.7% 的成绩,接近 Gemini-Ultra 和 GPT-4 的性能水平。DeepSeekMath 7B ...
对于DeepSeekmath-RL 7B,GSM8K和具有经过经过思考推理的数学可以被视为内域任务,所有其他基准都可以视为OOD任务,效果见Table 5。 参数设置 训练数据是带CoT形式和GSM8K和MATH相关的144K个问题。为了研究RL对基准的影响,没有像SFT一样有多种数据。GRPO的策略模型学习率设置为1e-6,KL系数为0.04,每个问题采样了64...
在MATH数学竞赛数据集上,DeepSeekMath-RL 7B超过了7B~70B所有开源模型,以及大多数闭源模型(例如Inflection-2和Gemini Pro)13%的绝对值,非常接近GPT-4和Gemini Ultra性能。 其中值得注意的是,DeepSeekMath-RL 7B所有评估指标上都超过了基准模型DeepSeekMath-Instruct 7B,展示了GRPO强化学习训练的有效性。
而使用Math-Shepherd和RLHFlow的PRMs时效果不佳甚至不如多数投票。 对于问题难度,参数少于7B的小型策略模型,BoN更适合于简单的问题,而Beam Search更适合于更难的问题。 参数在7B-32B的策略模型,DVTS在简单和中等问题上表现良好,而Beam Search对于困难问题更有效。 另外在72B参数的策略模型上,BoN是所有难度级别的最佳...
它,就是深度求索团队最新开源的7B数学大模型DeepSeekMath。7B模型力压群雄 为了评估DeepSeekMath的数学能力,研究团队使用了中(MGSM-zh、CMATH)英(GSM8K、MATH)双语的数据集进行了测试。在未使用辅助工具、仅靠思维链(CoT)提示的情况下,DeepSeekMath的表现均超越了其他开源模型,其中包括70B的数学大模型Meta...
冠军团队用到的模型是 NuminaMath 7B TIR,该模型是 deepseek-math-7b-base 的微调版本。获得第二名的队伍微调了两个 DeepSeek-Math-7B-RL 模型,一个用作策略模型(用于生成解决方案),一个用作奖励模型(用于对加权多数投票的解决方案进行评分)。第三名同样使用了 DeepSeek-Math-7B-RL 模型,没有进行任何...
1.3.1 DeepSeekMath(基于DeepSeek-Coder初始化)的三阶段训练方式:预训练-微调-RL训练 DeepSeekMath是一个包含120B的数学token的大规模高质量预训练语料库,训练过程是经典的预训练-微调-RL训练三阶段 DeepSeekMath-Base 7B DeepSeekMath-Base 是在 DeepSeek-Coder-Base-v1.5 7B的基础上初始化的,因为他们注意到从...
如表1所示,DeepSeek-PRM-Data的每个响应平均token数和每个步骤平均token数都大于Mistral-PRM-Data,这表明RLHFlow-PRM-Deepseek-8B的训练数据比RLHFlow-PRM-Mistral-8B的更长。这可能导致对输出长度的偏差。研究团队还发现,使用Qwen2.5-Math-7B进行扩展的推理token数量大于使用Skywork-PRM-7B的数量,但性能非常...
在结果监督RL中,DeepSeekMath 7B不仅使用了归一化的奖励来优化策略,还探索了过程监督RL,通过在每个推理步骤结束时提供奖励,进一步提高了模型对复杂数学任务的处理效率。此外,通过迭代RL的引入,利用GRPO优化策略模型和奖励模型的相互作用,提高了模型的适应性和学习效率,从而更好地应对数学推理的挑战。
如表1所示,DeepSeek-PRM-Data的每个响应平均token数和每个步骤平均token数都大于Mistral-PRM-Data,这表明RLHFlow-PRM-Deepseek-8B的训练数据比RLHFlow-PRM-Mistral-8B的更长。这可能导致对输出长度的偏差。 研究团队还发现,使用Qwen2.5-Math-7B进行扩展的推理token数量大于使用Skywork-PRM-7B的数量,但性能非常接近...