在RL 的新范式下,LLM 训练的 scaling law 需要被重写。因为训练时计算量不再只是和参数量的上升有关,还多了一个新变量:self-play 探索时 LLM inference 的计算量。RL 的思路本质是用 inference time 换 training time,来解决模型 scale up 暂时边际收益递减的现状。最近 DeepMind 也发布了一篇paper 叫做:Scalin...
there is still a lack of literature on scaling law research in online advertisement retrieval systems. This may be because 1) identifying the scaling law for resource cost and online revenue is often expensive in both time and training resources for large-scale industrial applications, and 2) var...
为了真正理解scaling law,要做的第一件事就是忘记Chinchilla Scaling Law,然后打开OpenAI的Scaling Law的paper,再把paper中OpenAI引用自己的更早的paper都详细的读几十遍"。其中Chinchilla Scaling Law指的是Deepmind思想。黄文灏认为大模型需要的是系统性的研究,把基础研究做好,才能更好的支持scale up。 OpenAI和Deepm...
清华大学、人大高瓴人工智能学院和小红书的联合研究,SIGIR 2024的best paper,2024-05-27首次上传到arxiv,探讨稠密检索模型的缩放规律问题。 Highlights / TL;DR query-doc检索问题,dssm类检索方法的scaling law,探讨模型规模、数据规模、数据质量对性能的影响; 在MSMARCO和T2Ranking数据集上实验,用对比熵为评估,不同...
Code Edit jingzheshi/scalinglawfortimeseriesf… official 17 Tasks Edit Time Series Time Series Forecasting Datasets Edit Add Datasets introduced or used in this paper Results from the Paper Edit Submit results from this paper to get state-of-the-art GitHub badges and help the ...
在 OpenAI 交出答卷后,AI 创业者表示「又行了」。不同于预训练的 Scaling Law,一条在推理阶段注入强化学习的路径成为明确的技术新方向,徐徐展开。极客公园「今夜科技谈」直播间也在第一时间邀请极客公园创始人 & 总裁张鹏,和创新工场联合首席执行官/管理合伙人汪华、昆仑万维首席科学家&2050 全球研究院院长...
赵行:Scaling Law是AI模型训练过程中的一个重要经验性发现。简而言之,这一法则揭示了随着数据量的增加,三个关键因素—模型大小、数据量、以及训练时间(计算量)—的增长能够不断地提升模型性能。这种性能提升遵循一个对数规律,即loss随着这三个因素的指数提升而线性下降。在传统的小模型中,性能往往会随着训练次数...
“18年的时候IIya和我说,(大语言)AGI可能快实现了”,赵行提到,“Scaling Law奠定了OpenAI所有工作的基础,但具身智能领域还没有找到Scaling Law,就导致了机器人和自动驾驶发展的瓶颈”。随着GPT、Sora等大型生成式模型的普及,业界对Gen AI对物理世界的影响持有不同观点。如果有无限算力,通用机器人和自动驾驶就可以实...
“18 年的时候 IIya 和我说,(大语言)AGI 可能快实现了”,赵行提到,“Scaling Law 奠定了 OpenAI 所有工作的基础,但具身智能领域还没有找到 Scaling Law,就导致了机器人和自动驾驶发展的瓶颈”。随着 GPT、Sora 等大型生成式模型的普及,业界对 Gen AI 对物理世界的影响持有不同观点。如果有无限算力,通用机器人...
Scaling law 不仅使根据小模型预测大模型性能成为可能,节省了计算开销和资源分配,也体现出自回归 AR 模型强大的学习能力,测试集性能随着 N、T、Cmin 增长。通过实验,研究者观察到了 VAR 展现出与 LLM 几乎完全一致的幂律 Scaling Law:研究者训练了 12 种大小的模型,缩放模型参数量从 1800 万到 20 亿,总...