因此RL 范式下,scaling law 仍然存在,计算成本仍然会大幅提升来获得更优的智能,但提升不再是模型的参数量本身的持续增长,而是通过 RL reasoning model 的方式来 scale up。今年中 OpenAI 正式推出了 mid-training 这个岗位,可能就是通过 RL reasoning model 合成大量高质量数据做继续学习。 但与预训练需求不同的是...
RLHF(包括BON & PPO)利用RM作为proxy objective,会有overoptimization的问题,也就是reward hacking问题。那么是否增加数据量或者模型参数可以缓解这个问题,以及这个增加方式是否符合scaling law就是这篇论文主要讨论的问题。 主要结论 这个结论说明: 画个图看看 超参数: alpha_bon = 2.5 beta_bon = 0.05 alpha_rl =...
3.2 将Scaling Law引入到DAA算法中 在得到评估DAA中过度优化的算法框架之后,作者开始探索能否将Scaling Law引入到该框架中。经典RLHF的先前工作已经为奖励模型得分建立了此类缩放定律,该定律可以衡量模型在初始策略和优化策略之间的 KL 散度,可以形式化表示为: 其中, ,由于DAA不训练代理奖励模型,因此在DAA算法中,作者...
依赖基座能力:RL阶段通过策略优化提升模型的对齐性和特定任务表现,但若基座模型逻辑推理能力不足,RL无法突破根本性瓶颈。 潜力方向:结合领域专有数据和动态反馈机制可进一步扩展上限。 (3)Test Time Scaling Law的天花板最低 场景局限性:测试时优化主要针对单次推理的局部改进(如答案筛选或路径搜索),无法系统性提升模型...
RL 是新的 scaling law 张小珺:能不能展开解释下什么是强化学习?Guangmi Li:2018 年的时候 Lex Fridman 邀请 Ilya Sutskever 去 MIT 客座讲了一节课, Ilya 选的主题就是强化学习与 self-play ,他当时就认为,这是通往 AGI 路上最关键的方法之一。Ilya 用一句话概括了强化学习,非常准确:让 AI 用随机的路径...
scaling law + RL Chestnut 1 人赞同了该文章 gpt4是RLHF(reformance learning from human feedback) gpto1是RL基于codeforce elo rating 很显然openai想打造一个alphago一样超越人类的东西 gpt4已经有一万亿参数了,已经超越大猩猩了,相比人脑(100-1000)万亿差不多,互联网数据也用的差不多了发布...
在预训练Scaling Law性能见顶情况下,研究机构纷纷转向了Post-Training和Scaling Test Time. 这里的Scaling Test-Time指的是在inference时增加更多的算力或时间,从而提升性能。我们可以定义三种Scaling LLM Test-Time类型: 纯inference推理 进行特定的训练,使得模型本身具备更优的推理能力。在inference时再辅以搜索功能提升性...
尽管有诸多声音认为,随着新模型在基准测试上的提升不够明显,现有训练数据几乎用尽以及摩尔定律放缓,大模型的Scaling Law要失效了。 但是顶尖AI实验室、计算公司还在加速建设数据中心,并向底层硬件砸更多钱。 比如AWS斥巨资自研了Trainium2芯片,花费65亿美元为Anthropic准备40万块芯片。
整体上DeepSeek的实验方案更加纯粹,所以我们先介绍Deepseek R1的技术方案,再用kimi来补充一些细节。 RL Scaling: DeepSeek R1 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 先直接抛出两个技术报告的核心发现 大模型的长思考能力,包括反思,自我验证,都可以单纯通过RL激发出来,并...
在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。 从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之...