腾讯混元团队的新工作《Scaling Laws for Floating–Point Quantization Training》系统全面地研究了浮点数量化训练的 Scaling Laws,填补了这一领域的空白。具体地,他们在大模型 Scaling Law 的经典要素:模型大小(简称 N)和训练数据量(简称 D)之外,联合考虑浮点数量化训练中重要的量化目标,指数位(Exponent,简称 E),尾...
腾讯混元团队的新工作《Scaling Laws for Floating–Point Quantization Training》系统全面地研究了浮点数量化训练的 Scaling Laws,填补了这一领域的空白。 具体地,他们在大模型 Scaling Law 的经典要素:模型大小(简称 N)和训练数据量(简称 D)之外,联合考虑浮点数量化训练中重要的量化目标,指数位(Exponent,简称 E),...