两者的主要区别训练起点:R1-Zero完全依赖强化学习;R1使用冷启动数据作为基础。目标优化:R1的训练更加多阶段化,提升了可读性、稳定性和通用能力。 蒸馏方法DeepSeek使用了一种高效的知识蒸馏技术,将大模型的推理能力迁移到小模型中,从而实现计算效率与性能的平衡。主要步骤如下:生成高质量数据:使用经过强化学习优化的Deep...