本文重点关注基于大模型的数据合成方法的讨论, 主要内容来自于综述论文[1], 该论文主要讨论如何直接应用大模型进行数据合成的通用方法和流程, 对大模型的复杂应用会有额外的小节专门开一节进行讨论. 在具体介绍方法之前, 先讨论一下合成数据的质量评估, 看数据的质量好坏最理想的方式是通过下游任务进行评估, 与下游...
并且通过自我对弈 (self-play) 的方式合成了大量的数据通过强化学习进行推理能力的训练. 因为O1仍然不是开源的模型, 所以这只能是一种技术猜测, 毕竟自我对弈不是最新的技术, 在自我对弈的时候如何基于合成数据持续提升模型性能仍然是一个有挑战性的任务. 话虽如此, 与O1的密切相关的...