参考ICLR 2023的论文:[2210.17323] GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers TL;DR 量化:是一种模型压缩的常见方法,将模型权重从高精度(如FP16或FP32)量化为低比特位(如INT8、INT4)。常见的量化策略可以分为PTQ和QAT两大类。 量化感知训练(Quantization-Aware Training)...
本文总结了PTQ系列论文,包含:Transformer、ViT、BERT、SAM、Diffusion、LLM等领域,总计32篇论文,可作为科研、开发的参考资料。 1.Transformer PTQ4DiT 题目:PTQ4DiT: Post-training Quantization for Diffusion Transformers 名称:PTQ4DiT:扩散 Transformer培训后量化 论文:arxiv.org/abs/2405.1600 代码:github.com/adr...
这两种都属于后训练量化(PTQ)。 1. GPTQ GPTQ能够将权重精度降低到4位或3位。实际中,GPTQ主要用于4位量化。3位量化已被证明非常不稳定。GPTQ可以在不将整个模型加载到内存中的情况下进行量化。需要注意的是,GPTQ量化需要一小部分数据进行校准。在前文中,我使用GPTQ对Llama2进行量化,量化后模型占用内存减小...