SmoothQuant 生态 总结 参考文档 近年来,随着Transformer、MOE架构的提出,使得深度学习模型轻松突破上万亿规模参数,从而导致模型变得越来越大,因此,我们需要一些大模型压缩技术来降低模型部署的成本,并提升模型的推理性能。 模型压缩主要分为如下几类: 剪枝(Pruning) 知识蒸馏(Knowledge Distillation) 量化 本系列将针对一些...
SmoothQuant 是一种准确和高效的 LLM 训练后量化 (PTQ) 解决方案。SmoothQuant 依赖于一个关键的观察结果:即使由于异常值的存在[3],activation 比 weight 更难量化,不同的 token 在其 channel 中表现出相似的变化。基于这一观察,SmoothQuant 离线将量化难度从激活迁移到权重,如图1所示。SmoothQuant 提出了一种数学...
在实际应用中,SmoothQuant技术已被广泛应用于各种大模型的量化。例如,OPT-175B使用SmoothQuant进行int8量化之后,保持了与FP16相当的精度。同时,SmoothQuant还集成了PyTorch和FasterTransformer等主流深度学习框架,为开发者提供了便捷的量化工具和示例代码。 四、结语 综上所述,SmoothQuant作为一种创新的大模型量化技术,通...
本文提出的增强型 SmoothQuant 的主要优势在于提高了准确率。经过对多种主流大语言模型的评估,具备自动调优能力的 INT8 SmoothQuant 最后一个词元 (last-token) 的预测准确率要高于原始 INT8 SmoothQuant 和 FP32 基线方法。详见下图:FP32 基线方法、INT8(启用和不启用 SmoothQuant)以及 INT8(启用本文提出的...
高精度:通过平滑激活值中的离群点,SmoothQuant能够在保持模型精度的同时实现高效量化。 高效率:量化后的模型在推理过程中能够利用整数计算的优势,显著提升计算效率。 灵活性:通过调整超参数α,可以灵活控制量化难度在激活值和权重之间的分配。 广泛应用场景:SmoothQuant技术适用于边缘计算和云计算平台等多种场景,能够显著...
SmoothQuant由麻省理工学院(MIT)的Han Lab提出,是一种针对大模型的训练后量化方法。其核心在于平衡激活值和权重的量化难度,通过逐通道缩放平滑激活值分布,减少离群点的影响,从而实现高精度的模型压缩与加速。 在大模型量化过程中,激活值量化相较于权重量化更具挑战性。激活值通常包含大量离群点,这些离群点会显著拉伸...
其中,SmoothQuant作为一种先进的训练后量化方法,以其独特的激活平滑技术,在保持模型精度的同时,显著提升了推理效率。本文将深入解析SmoothQuant的技术原理,帮助读者理解其背后的科学逻辑。 一、量化技术概述 量化技术是指将模型中的浮点数参数(如权重和激活值)转换为整数或低精度浮点数,以减少模型大小和计算量。根据...
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型
SmoothQuant能够对所有LLM的各种层中权重和激活量化到INT8,包括OPT-175B, BLOOM-176B和GLM-130B。 相比现有方法仅对权重进行靓货,或者对激活进行混合精度的量化,SmoothQuant有更高的硬件效率,实现了1.56倍加速,内存需求仅为原始LLM的一半,并且在准确率上几乎没有损失。 SmoothQuant同时具有硬件友好的设计,研究人员将...
SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-