但这个 Chinchilla Scaling Law 终极想说明,不需要用超大的模型和数据,花费几个月甚至几年的时间慢慢做实验,只要在小模型、小数据下验证、确认公式,就可以设计一个更大型的训练,大幅度减少实验成本,就是说这个公式是小范围训练出来的,当然对于大部分人来说,用 DeepMind 公式的系数就行?
这一观点在2022年被Google DeepMind推翻,在论文《Training Compute-Optimal Large Language Models》中,DeepMind多方验证了固定计算资源下,达到最优训练效率时,训练数据量和模型参数量呈接近线性增加的关系,这一结论形成了Chinchilla Scaling Law和Chinchilla Optimal的概念,由此,大规模的高质量数据集成为人工智能发展道路上...
You can also visualize how chinchilla would perform under the given setup and a hypothetical scaling law, optionally with a noise term:import random cc.simulate( num_seeding_steps=401, num_scaling_steps=1, scaling_factor=10.0, target_params=dict( E=1.69337368, A=406.401018, B=410.722827, ...
张俊林:Scaling Law其实是个经验公式,最初是OpenAI在2020年提出来的,现在大家遵循的应该是DeepMind在22年提出的Chinchilla Scaling Laws(Chinchilla Scaling Laws:为了使模型达到最佳性能,模型参数量应与训练集的大小成等比例扩张。),尽管它被称为Law,但它是通过大量的实验来得出的 发布于 2024-05-30 09:17・IP ...