对 DeepSeek-R1-Distill-Qwen-14B 进行 LoRA 微调推荐使用 1 张具有 48GB 显存的 GPU ,这为实际操作提供了一个参考点,表明拥有超过30GB显存的单卡是理想的。另一份阿里云文档针对类似的 14B Qwen Coder 模型进行训练(微调)推荐使用具有 32GB 显存的 GPU (如 V100) 或更高规格。QLoRA 技术让我们可以在消...
为了进一步增强DeepSeek-Coder模型的自然语言理解和数学推理能力,论文从通用语言模型DeepSeek-LLM-7B Base(DeepSeek-AI,2024)上进行了额外的2万亿token的预训练,得到了DeepSeekCoder-v1.5 7B。对于这个预训练,论文专门使用了表9中列出的数据源。与DeepSeek-Coder不同,DeepSeek-Coder-v1.5在其预训练阶段仅使...
对 DeepSeek-R1-Distill-Qwen-14B 进行 LoRA 微调推荐使用 1 张具有 48GB 显存的 GPU ,这为实际操作提供了一个参考点,表明拥有超过30GB显存的单卡是理想的。另一份阿里云文档针对类似的 14B Qwen Coder 模型进行训练(微调)推荐使用具有 32GB 显存的 GPU (如 V100) 或更高规格。 QLoRA 技术让我们可以在消费...
5. 继续预训练:从通用语言模型额外预训练得到DeepSeek-Coder-v1.5 7B,其在数学推理和自然语言处理能力上提升显著。 6. 研究结论:DeepSeek-Coder系列模型基于优质语料库训练,扩展上下文窗口,性能优异。微调后的模型在编程任务中表现卓越,继续预训练的模型增强了自然语言理解能力,未来将基于更大规模通用LLMs开发更强大的...
为了进一步增强 DeepSeek-Coder 模型的自然语言理解和数学推理能力,我们从通用语言模型 DeepSeek-LLM-7B Base(DeepSeek-AI, 2024)开始,使用 2 万亿个标记进行额外的预训练,从而开发出 DeepSeek-Coder-v1.5 7B。在这次预训练中,我们特别使用了表 9 中列出的数据源。与 DeepSeek-Coder 不同,DeepSeek-Coder-v1.5...
参数规模与模型能力的非线性关系可通过具体案例观察。在代码生成基准测试 HumanEval 中,DeepSeek-Coder-7B 的准确率达到 45.3%,虽然低于 GPT-4 的 76.3%,但相比 1.3B 参数的 CodeGen-Mono-1.3B(准确率 21.4%)呈现明显的性能跃升。这种边际效益递减现象解释了为何 7B 级别成为当前开源社区的热门选择。
5. 继续预训练与提升:基于通用语言模型DeepSeek-LLM-7B Base对DeepSeek-Coder进行额外预训练,生成DeepSeek-Coder-v1.5 7B。该模型在数学推理和自然语言处理能力上显著提升,尽管编码性能略有下降,但综合表现更优。 6. 研究结论:DeepSeek-Coder系列模型基于项目级代码语料库训练,在多种任务中性能出色,尤其是DeepSeek...
接下来,研究团队在 3 个 7~8B 的基础模型(LLaMA-3.1,Qwen-2.5,Deepseek-coder-v1.5)上用 fm-alpaca(14k 数据),同时对比了普通的对话型指令微调数据集 tulu-v3 和 ultra-chat。 如图6,经过形式化数据 fm-alpaca 微调之后,大模型...
2024 年 2 月 5 日,DeepSeekMath 震撼登场,它以 DeepSeek - Coder - V1.5 7B 为基础,在数学相关 token 以及自然语言和代码数据上进行了进一步的预训练。在竞赛级数学基准测试中,DeepSeekMath 取得了令人瞩目的优异成绩,展现出了在数学领域的强大实力,为解决复杂的数学问题提供了新的解决方案。(四)Deep...