2. 他们从基础模型的响应中发现了肤浅的自我反思(SSR),在这种情况下,自我反思并不一定会导致正确的最终答案。3. 仔细研究通过 RL 进行的类 R1-Zero 的训练,发现响应长度增加的现象并不是因为出现了自我反思,而是 RL 优化设计良好的基于规则的奖励函数的结果。我并不这样认为的原因:① 因为反思作为序列AR本身的步骤一
而对于长序列,还可以使用序列并行优化,不仅能够均匀地切分庞大的显存开销,同时也能实现高效的计算和通信。我特别提一下,像序列并行,我们也知道DeepSpeed里面有序列并行的思想。但如果仔细阅读过他们代码的话,会发现他们在计算Attention的时候,实际上序列这一维并不会切的。 在我们系统里,我们成功把序列这一维从始至终...