权重量化 (Weight Quantization):只压缩模型的参数(权重 W)。 激活量化 (Activation Quantization):只压缩模型的中间计算结果(激活值 X)。 权重和激活都量化 (Weight & Activation Quantization):双管齐下,效果更猛。 量化的方式: PTQ (Post-Training Quantization)
AWQ(Activation-aware Weight Quantization,基于激活值的权重量化)是一种针对大语言模型权重的量化算法。 在量化阶段,此量化算法的输入是矩阵向量乘的权重参数(float point 16),输出是量化后的权重(3 bit or 4 bit)和量化系数(每一个channel中的group_size个数字一个系数), 比如,每group_size(e.g. 128)个权重...
AWQ(Activation-aware Weight Quantization)是一种基于激活感知的权重量化方法。其工作原理可以分为以下三个步骤: Group Quantization:首先,AWQ将权重分组为多个子矩阵。这样做的好处是可以更好地捕捉权重的局部特性,提高量化精度。 Activation-aware Quantization:然后,AWQ使用activation-aware的方法来量化每个子矩阵。具体...
然而,这些模型往往伴随着庞大的参数量和计算量,对硬件资源提出了极高的要求。为了解决这个问题,大模型量化技术应运而生,其中AWQ(Activation-aware Weight Quantization)及其自动化版本AutoAWQ成为了重要的研究方向。 一、AWQ技术原理 AWQ是一种针对大型语言模型的权重量化技术,其核心思想在于认识到模型中不同权重的重...
AWQ(Activation-aware Weight Quantization )方法由 MIT、SJTU、Tsinghua University 联合提出的方法,一种对大模型仅权重量化方法。该方法基于”权重并不同等重要“的观察,仅保护1%的显著权重(salient weight)可以大大减少量化误差。AWQ不依赖于任何反向传播或重建,因此可以很好地保持LLM在不同领域和模式上的泛化能力,而...
AWQ: activation-aware weight quantization 1. Quantization maps a floating-point number into lower-bit integers. 模型量化通常将浮点数映射到低位数的整数上,最简单 valina 的 baseline 就是直接把浮点参数 round to nearest integer。映射为整数的好处自然不少:硬件支持和计算效率更好,毕竟整形计算通常比浮点数...
AWQ(Activation-aware Weight Quantization)是一种针对大型语言模型(LLM)设计的权重量化技术,其核心目标是通过降低模型权重参数的数值精度来压缩模型体积、提升推理效率,同时尽量减少量化带来的性能损失。下文将从核心原理、技术优势、应用场景三个角度展开分析。 一、核心原理 AWQ通过分析...
AWQ(Activation-aware Weight Quantization )方法由 MIT、SJTU、Tsinghua University 联合提出的方法,一种对大模型仅权重量化方法。该方法基于”权重并不同等重要“的观察,仅保护1%的显著权重(salient weight)可以大大减少量化误差。AWQ不依赖于任何反向传播或重建,因此可以很好地保持LLM在不同领域和模式上的泛化能力,而...
and Han S. AWQ: Activation-aware weight quantization for llm compression and acceleration. MLSys, 2024.概随着模型的参数量的增加, 推理成本也在显著增加, 本文提出一种量化方法: AWQ 量化, 以缓解这一问题. 其主要贡献在于对于"重要"权重的特殊处理, 以及 per-channel 的 scaling....
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language ModelsGPTQ: Accurate Post-training Compression for Generative Pretrained TransformersVicuna and FastChatLLaVA: Large Language and Vision AssistantAbout AWQ: Activation-aware Weight Quantization for LLM Compression and ...