这意味着,对于这些任务,当微调数据集足够大时,没有必要进行模型预训练。幸运的是,我们可以使用 Scaling Law 正确预测是否会出现这种情况,需要做的就是在预训练数据集的一小部分上以合理的计算成本预训练模型,以优化 Scaling Law 的系数,然后遵循论文第 3.4 节提供的指南。在图 2 中,研究者将所有图中的...
就训练来说,「精度感知」scaling law能够预测不同部分采用不同精度的模型的损失。在某些情况下,用低精度训练LLM可能更有效率。论文中,作者统一了训练后和预训练量化的scaling law,建立了一个完整的理论框架。这个单一函数形式可以预测在不同精度下进行训练和推理时的性能降级。基于465次以上的预训练实验,在最大1...
scaling law 的意义,一是在给定计算量预算下,为训出最好效果的模型,估计该模型size得多大,需要配置多大的数据集; 二是,为弄出更高性能的模型,估计所需的计算投入以及数据集大小; 三是一旦开训,预判训到一定进度(step)时的loss应该是多少,从而与实际对比,看是否一切ok。 如果已经有 scaling law 的公式,那么直...
【新智元导读】Scaling Law撞墙,扩展语言智能体的推理时计算实在太难了!破局之道,竟是使用LLM作为世界模型?OSU华人团队发现,使用GPT-4o作为世界模型来支持复杂环境中的规划,潜力巨大。Scaling Law又能续命了?如何通过语言智能体的高级规划来Scaling推理时计算?答案就是——使用LLM作为世界模型。也就是说,使用G...
今年以来我们观察到 LLMscaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。
Scaling Law不仅适用于语言模型,还适用于其他模态以及跨模态的场景。缩放定律提出的意义是重大的,根据它研究人员和开发者可以更有效地设计模型架构,选择合适的模型大小和数据集规模,以在有限的计算资源下实现最佳性能。关于缩放定律的研究,先前的研究主要集中在大语言模型(LLM)上,关于它的争议一直存在:OpenAI认为[...
作LLM scaling law的实验,你一开始并不知道模型N, 数据集D,计算量C,计算步数Step等几者之间应该怎么适配。所以实验中一个model开训的时候,你也不知道应该训多少步为好,但是你总是需要选定好某个学习率schedule方案的---往往是decayed cosine schedule,而它又需要知道一共打算训多少步。有点死锁了。 openai的《...
Scaling Law并非描述大模型能力的唯一视角!清华NLP实验室刘知远教授团队,最新提出大模型的密度定律(densing law),表达形式让人想到芯片领域的摩尔定律:模型能力密度随时间呈指数级增长,2023年以来能力密度约每3.3个月(约100天)翻一倍。根据密度定律,研究团队还得出以下重要推论——AI时代的三大核心引擎——电力...
Scaling Law,即规模法则。大模型的 Scaling Law 发展历程表明,随着模型规模、训练数据和计算资源的增加,模型性能会得到显著提升,并且这些关系遵循可预测的模式。但同时也遇到了数据受限等问题,业界对此提出了重复数据与合成数据两种方式,由此也带了许多启发。
未来,密度研究还面临着多个重要方向。首先是评估基准的完善。随着 LLM 能力的不断扩展,现有的评估数据集可能无法全面反映模型的真实能力。其次是多模态模型密度的度量问题,这需要考虑不同模态之间的交互特性。此外,推理密度定律的研究也很重要,这涉及到如何在不同推理计算量下优化模型表现。或许,LLM 发展将会经历一...