进击的Killua:[LLM量化系列]使用Rotation抑制LLM中的Outlier:SpinQuant 本文介绍和比较的方法DuQuant、AffineQuant和FlatQuant也是在之前的基础上进行了更深入的优化迭代,取得了当前SOTA的量化效果。 DuQuant 论文:DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs ...
DuQuant在构造旋转矩阵时融入了先验知识,具体而言,即利用了outlier channel的索引信息。这使得它能够更有效地平滑激活空间,进而优化模型性能。QuaRot的提升性能方式依赖于GPTQ算法,该算法计算量较大。而DuQuant则通过引入通道置换矩阵,能够在极短时间内进一步优化outliers的分布。综上所述,DuQuant通过引入两种正交变换...
首先,当有一堆数据要处理的时候,duquant原理会启动一个“ “数据扫描器”,这就好比是一个拿着放大镜仔细检查数据的小侦探 探。它会逐一对数据进行查看,了解每个数据的特点。 接下来,就是关键的编码环节啦。duquant原理会给每个组的数 数据都分配一个独特的“代码”。这个代码可不是随便编的哦,它里 里面蕴含着...
DuQuant 提出通过学习旋转和置换变换矩阵,在 Activation 矩阵内部将 Outlier 转移到其他通道,最终得到平滑的激活矩阵,从而大幅度降低量化难度。如下图 Figure 2 所示为 DuQuant 算法说明: a. 逐步展示了 DuQuant 算法对 Normal Outlier 的处理过程。 b. DuQuant 显著降低了 Massive Outlier。 c. 一个 Example 说...
DuQuant团队 投稿 量子位 | 公众号 QbitAI 消除激活值(outliers),大语言模型低比特量化有新招了—— 自动化所、清华、港城大团队最近有一篇论文入选了NeurIPS 2024(Oral Presentation),他们针对LLM权重激活量化提出了两种正交变换,有效降低了outliers现象,达到了4-bit的新SOTA。
DuQuant 的论文在NeurIPS 2024 上获得 88877 的分数并被接收为Oral。 11月5日19点,青稞Talk 第28期,中科院自动化所和香港城市大学联合培养博士生林浩坤,将直播分享《DuQuant: 基于正交变换实现大型语言模型的 SOTA级 4 bit 量化》。 Talk信息 主讲嘉宾 林浩坤,中科院自动化所和香港城市大学联合培养博士生,研究方向...
### 摘要 在NeurIPS 2024会议上,DuQuant模型通过两种正交变换技术,在4bit量化精度上达到了新的SOTA(State of the Art)水平,实现了50秒内完成7B(70亿参数)模型的量化。这一成果表明,在大规模模型的低比特量化领域,DuQuant利用激活值的先验知识,相较于QuaRot中的Hadamard旋转方法,取得了更优的量化效果。 ### 关...
旋转矩阵和平移变换矩阵都是正交矩阵,保证了权重激活输出(XW)的不变性,我们还通过严谨的理论推导了证明了两种变换有效降低了量化误差。DuQuant在4-bit权重激活量化setting下达到了SOTA的效果,我们验证了LLaMA、Vicuna、Mistral系列模型,在PPL、QA、MMLU和MT-Bench等任务上DuQuant都明显提升了量化模型的性能。
conda create -n duquant python=3.10 -y conda activate duquant git clone https://github.com/Hsu1023/DuQuant.git pip install --upgrade pip pip install -r requirements.txt ⚙️ Usage 1. Preprocessing python get_rot.py#need to be run only once for all modelspython generate_act_scale_shi...
几篇论文实现代码:《DuQuant: Distributing Outliers via Dual Transformation Makes Stronger Quantized LLMs》(NeurIPS 2024) GitHub: github.com/Hsu1023/DuQuant [fig5] 《UTrack: Multi-Object Tracking w...