常见的FP8格式有两种:一种分配4位给指数、3位给尾数(称为E4M3),另一种分配5位给指数、2位给尾数(称为E5M2)。对于E4M3格式,4位指数经过偏移后范围是-6到+7,这使得它能表示的最小正数约为1.95×10^-3,最大正数约为240。而E5M2格式由于多分配了1位给指数,指数范围扩展至-14到+15,但尾数仅有2位,导致其最小正数约为3.05×10^-
因此,开发更高效的训练方法迫在眉睫。模型量化作为一种通过降低数值精度来减少计算和内存成本的技术手段,近期逐渐成为研究热点。尽管 FP16/BF16 和 FP8 量化已被证明在训练中可行,但 FP4 量化由于其极低的精度和有限的动态范围,一直面临巨大挑战。 为了解决这一问题,微软亚洲研究院的研究员们提出了首个针对大语言...