本文将从头开始回答这些问题,首先是深入解释 LLM Scaling Law 和相关研究。Scaling Law 的概念很简单,但公众对 Scaling Law 存在各种误解 —— 这项研究背后的科学实际上非常具体明确。利用对 Scaling Law 的详细理解,我们将讨论 LLM 研究的最新趋势以及导致 Scaling Law「停滞」的因素。最后,我们将利用这些信息更清...
Scaling Law 的概念很简单,但公众对 Scaling Law 存在各种误解 —— 这项研究背后的科学实际上非常具体明确。利用对 Scaling Law 的详细理解,我们将讨论 LLM 研究的最新趋势以及导致 Scaling Law「停滞」的因素。最后,我们将利用这些信息更清楚地说明 AI 研究的未来,重点关注一些可能继续推动进步的关键思想 —— 其...
Scaling Law 的概念很简单,但公众对 Scaling Law 存在各种误解 —— 这项研究背后的科学实际上非常具体明确。利用对 Scaling Law 的详细理解,我们将讨论 LLM 研究的最新趋势以及导致 Scaling Law「停滞」的因素。最后,我们将利用这些信息更清楚地说明 AI 研...
尺度定律之外,清华研究团队发现,大模型还有另一种度量与优化的空间,能力密度(Capability Density),它为评估不同规模 LLM 的训练质量提供了新的统一度量框架。清华研究团队提出的“能力密度”(Capability Density),定义为给定LLM的有效参数大小与实际参数大小的比率。有效参数大小指的是达到与目标模型同等性能所需的...
在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。 从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之...
未来,密度研究还面临着多个重要方向。首先是评估基准的完善。随着 LLM 能力的不断扩展,现有的评估数据集可能无法全面反映模型的真实能力。其次是多模态模型密度的度量问题,这需要考虑不同模态之间的交互特性。此外,推理密度定律的研究也很重要,这涉及到如何在不同推理计算量下优化模型表现。或许,LLM 发展将会经历一...
差别于openai一文,deepmind一文发现学习率设置是重要的。 作LLM scaling law的实验,你一开始并不知道模型N, 数据集D,计算量C,计算步数Step等几者之间应该怎么适配。所以实验中一个model开训的时候,你也不知道应该训多少步为好,但是你总是需要选定好某个学习率schedule方案的---往往是decayed cosine schedule,而它...
研究人员根据上述函数形式拟合观测到的数据点,得到在 Pythia 系列 LLM 的低比特量化的 scaling law 公式: 研究人员根据这个公式绘制出曲线,发现能够很好地拟合观测到的数据点: 另外,研究人员对不同测试数据,不同量化方法以及不同的基础模型都进行了评测,发现所得到的 scaling laws 的函数形式大概率是普适成立的: ...
所谓Scaling Law,指的是模型性能(如测试集上的损失或准确率)如何随着模型参数数量、训练数据量以及计算量的增加而变化的经验性定律。这一概念最初由OpenAI在2020年的开创性工作提出。掌握Scaling Laws有助于我们在训练LLM时进行模型大小、数据规模和算力投入之间的权衡,指导训练方案的设计。
今年以来我们观察到 LLMscaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。