大语言模型(LLMs)虽然可以学习广泛的世界知识和一些推理技能,但由于其训练的完全无监督性,因此实现对其行为的精确控制是困难的。现有获得可控性的思路一般是首先收集模型生成的样本并进行相对质量的人工排序,接着通过 RLHF 对原始的无监督的 LM 进行微调,以使其与人类偏好相一致。更具体的,RLHF 首先拟合一个反应人...
Planning In Natural Language Improves LLM Search For Code Generation 在自然语计划层面中“搜索” 把LLM 生成与下棋类比,那么 LLM 生成中的“一步棋”单位应该是什么呢?从直觉来看,LLM 在 token 层面的数据丰富度是足够高的,因此各种语法规范和表达上总体不会有什么大问题。我们更加缺少的是宏观计划层面的数据,...
放到 LLM 语境下,self-play 是让 LLM 同时扮演一个或多个 agent model 去做推理任务,并由另一个 LLM 作为 reward model 来给出打分评价,一定次数后更新 LLM 权重让其多记住做得好的推理方式。 Self-play 是 AlphaZero 等强化学习算法的合成数据方法,最早可以追溯到 1992 年的 TD-Gammon 算法。这个方法的本...
下一步的tuning应该就是LLM外接更多general 的世界反馈进行微调(比如机械臂触感、更实际的任务反馈),...
PAFT,并行微调,参阅论文《PAFT: A parallel training paradigm for effective llm fine-tuning》。 长度控制式 DPO 和无参考 DPO 之前有研究表明,LLM 的输出往往过于冗长。为了解决这个问题,R-DPO 和 SimPO 的关注重心是在不影响生成性能的前提下实现...
今年以来我们观察到 LLMscaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。
今年以来我们观察到 LLMscaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。
ORPO,比值比偏好优化,参阅论文《ORPO: Monolithic preference optimization without reference model》。PAFT,并行微调,参阅论文《PAFT: A parallel training paradigm for effective llm fine-tuning》。长度控制式 DPO 和无参考 DPO 之前有研究表明,LLM 的输出往往过于冗长。为了解决这个问题,R-DPO 和 SimPO 的...
今年以来我们观察到 LLMscaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。
PAFT,并行微调,参阅论文《PAFT: A parallel training paradigm for effective llm fine-tuning》。 长度控制式 DPO 和无参考 DPO 之前有研究表明,LLM 的输出往往过于冗长。为了解决这个问题,R-DPO 和 SimPO 的关注重心是在不影响生成性能的前提下实现对响应长度的控制。