今年以来我们观察到 LLMscaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。 本文正是在这...
今年以来我们观察到 LLMscaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。 本文正是在这...
今年以来我们观察到 LLM scaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。 本文正是在...
(2)RL Scaling Law的天花板次之 依赖基座能力:RL阶段通过策略优化提升模型的对齐性和特定任务表现,但若基座模型逻辑推理能力不足,RL无法突破根本性瓶颈。 潜力方向:结合领域专有数据和动态反馈机制可进一步扩展上限。 (3)Test Time Scaling Law的天花板最低 场景局限性:测试时优化主要针对单次推理的局部改进(如答案...
今年以来我们观察到 LLMscaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。
3.2 将Scaling Law引入到DAA算法中 在得到评估DAA中过度优化的算法框架之后,作者开始探索能否将Scaling Law引入到该框架中。经典RLHF的先前工作已经为奖励模型得分建立了此类缩放定律,该定律可以衡量模型在初始策略和优化策略之间的 KL 散度,可以形式化表示为: ...
直到大语言模型的scaling law开始碰壁,科技树上的一场新较量开始了。这正是一部人类智慧交替闪耀的故事。通往AGI的路上,原本是一片黑暗,有人提出用刀耕,有人用火种,有人用哲思,都获得过成就,也遭遇过瓶颈。而在新的障碍面前,这些方法的新组合,把人类带到了新的起点。01、AlphaGo 2016年3月的首尔,深度...
现在“吃”的是 base model 的 scaling law,未来可能会去“吃”用户这个数据源的 scaling law。 因为其实 alignment 也有 scaling law,它肯定是可以被解决的,只要你能找到对的数据。AI 本质就是一堆 scaling law。 一个值得被 scale up 的架构...
OpenAI 的 Self-Play RL 新模型 o1 最近交卷,直接引爆了关于对于 Self-Play 的讨论。在数理推理领域获得了傲人的成绩,同时提出了 train-time compute 和 test-time compute 两个全新的 RL Scaling Law。这篇文章用大概一万字的内容,彻底深入分析并推演一...
而这一方法也是 DeepSeek 所采用的推理开放训练方法。 Meta GenAI 的田渊栋教授系统总结了当下应对大语言模型局限的解决方式,除了 Scaling Law 之外还有Test-time Scaling(测试时扩展),即使用更大的模型加工具或思维链,使用不同的策略,最终可能会找到一个比单纯的大型模型更好的解决方案。田渊栋教授也分享了通过使用...