DeepSeek-R1-Zero是通过直接在基础模型上应用强化学习来训练,没有使用任何监督微调数据。这意味着它在学习过程中完全依赖于奖励信号,而不需要预设的标签数据。这种方法似乎节省了收集和标记大量数据的时间和资源,但也可能需要更多的计算资源,因为RL通常需要大量的试错和训练。
三分钟让你明白DeepSeek R1到底强在哪了 DeepSeek-R1-Zero 的训练方法完全依赖强化学习(RL):R1-Zero没有经过传统的监督微调,而是直接通过强化学习训练。使用奖励机制(如答案准确性奖励、格式奖励)来指导模型 - AI享科技于20250127发布在抖音,已经收获了8.2万个喜欢