在RL 的新范式下,LLM 训练的 scaling law 需要被重写。因为训练时计算量不再只是和参数量的上升有关,还多了一个新变量:self-play 探索时 LLM inference 的计算量。RL 的思路本质是用 inference time 换 training time,来解决模型 scale up 暂时边际收益递减的现状。最近 DeepMind 也发布了一篇paper 叫做:Scalin...
今年以来我们观察到 LLMscaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转移到 inference-time compute 增加,也就是模型进行更多 RL 探索。 本文正是在这...
可以说,Scaling 堪称大模型领域的摩尔定律。在如今大模型百花齐放境地下,我们发现数学和代码能力才是openAI真正的护城河,这两者的核心都包括推理能力。今天要介绍的文章,正是对大模型数学推理Scaling Law的研究。文章通过简单的RFT数据增强,就将Llama-7B在数学数据集GSM8K上的准确率得到了巨大提升。这篇文章做了丰富的...
研究人员根据上述函数形式拟合观测到的数据点,得到在 Pythia 系列 LLM 的低比特量化的 scaling law 公式: 研究人员根据这个公式绘制出曲线,发现能够很好地拟合观测到的数据点: 另外,研究人员对不同测试数据,不同量化方法以及不同的基础模型都进行了评测,发现所得到的 scaling laws 的函数形式大概率是普适成立的: ...
Think:这里可以关联到Agent探索&体会中的一篇关于XOT的paper中MCTS DRL路径探寻的模式思考,其中AOT那篇paper中也有部分思想的重合与指导性。 回望23年中的6月7日,曾经在最复杂的智力博弈领域风光无限的DeepMind,继AlphaGO神来之笔后,在...
In this paper, we combined two questions to make progress at understanding ICL: (1) what scaling law best describes ICL, and (2) is ICL Bayesian? We showed that Bayesian assumptions naturally lead to a scaling law for ICL, and that Bayesian scaling laws are a great fit for both ICL beh...
Paper Densing Law of LLMs Large Language Models (LLMs) have emerged as a milestone in artificial intelligence, and their performance can improve as the model size increases. However, this scaling brings great challenges to training and inference efficiency, particularly for deploying LLMs in ...
awesome-language-model-analysis- This paper list focuses on the theoretical or empirical analysis of language models, e.g., the learning dynamics, expressive capacity, interpretability, generalization, and other interesting topics. LLM Leaderboard ...
并且将解读最新的NIPS’23 best paper,文中提出了灵魂质疑:涌现真的存在吗? 1. Scaling laws 首先将简单介绍scaling laws,主要参考了openai圣经*Scaling Laws for Neural Language Models*。关于scaling laws其实有很多值得推导和实操的内容,但这里只给出一些简单的结论,具体的公式推导会放到后续的文章里。 Scaling ...
差别于openai一文,deepmind一文发现学习率设置是重要的。 作LLM scaling law的实验,你一开始并不知道模型N, 数据集D,计算量C,计算步数Step等几者之间应该怎么适配。所以实验中一个model开训的时候,你也不知道应该训多少步为好,但是你总是需要选定好某个学习率schedule方案的---往往是decayed cosine schedule,而它...