一、GPTQ 1. 计算Hessian矩阵 2. 逐层weight量化 3.保存量化weight 二、SmoothQuant 1.根据校准数据生成激活值scale 2.smooth模型 3.量化模型 三、AWQ 1. 激活感知的weight缩放、扩大调整 2. 权重量化 3. 量化层推理 本文主要是对LLM PTQ量化方向的几个经典算法(GPTQ、SmoothQuant、AWQ)的代码实现进行介绍...
本文只提到了llm.int8 ,GPTQ,AWQ,SmoothQuant 这几种常用的策略,量化策略直接影响最终模型输出效果,所以还有很多新的量化策略。包括LLM转为SLM也要很大程度依靠更低bit的量化,才能部署在端侧CPU上,例如手机/车载/FPGA等场景。文中有哪里表述不准确的地方欢迎各位大神在评论区批评讨论,觉得本文总结得不错的话就点...
sparsity pruning quantization knowledge-distillation auto-tuning int8 low-precision quantization-aware-training post-training-quantization awq int4 large-language-models gptq smoothquant sparsegpt fp4 mxformat Updated Jan 10, 2025 Python ModelTC / llmc Star 380 Code Issues Pull requests [EMNLP ...
推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导(6.3.910) 来自:帮助中心 查看更多 → 使用SmoothQuant量化 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per...
推理模型量化使用AWQ量化使用SmoothQuant量化使用kv-cache-int8量化使用GPTQ量化父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.908) 来自:帮助中心 查看更多 → 使用SmoothQuant量化 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-channel:权重量化...
📖A curated list of Awesome LLM Inference Paper with codes, TensorRT-LLM, vLLM, streaming-llm, AWQ, SmoothQuant, WINT8/4, Continuous Batching, FlashAttention, PagedAttention etc. - lliai/Awesome-LLM-Inference
本系列将针对一些常见大模型量化方案(GPTQ、LLM.int8()、SmoothQuant、AWQ等)进行讲述。 大模型量化概述 量化感知训练: 大模型量化感知训练技术原理:LLM-QAT 大模型量化感知微调技术原理:QLoRA 训练后量化: 大模型量化技术原理:GPTQ、LLM.int8() 大模型量化技术原理:SmoothQuant 大模型量化技术原理:AWQ、AutoAW...
建议参照杨远航:QLoRA、GPTQ:模型量化概述的图示配合阅读 上述算法实践不够快,因为大模型权重的海森矩阵很大,更新时其计算访存比相对较低 分析:因为每量化1列参数,就需要更新1次海森矩阵的逆,假设逆矩阵的大小为d_{\text{row}} \cdot d_{\text{col}},共需更新d_{\text{col}}次,带来的访存总量为d_{\tex...
📖A curated list of Awesome LLM Inference Paper with codes, TensorRT-LLM, vLLM, streaming-llm, AWQ, SmoothQuant, WINT8/4, Continuous Batching, FlashAttention, PagedAttention etc. - ljy-2000/Awesome-LLM-Inference
推理模型量化 使用AWQ量化 使用SmoothQuant量化 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于DevServer适配PyTorch NPU推理指导(6.3.908) 来自:帮助中心 查看更多 → 使用SmoothQuant量化 --per-token:激活值量化方法,如果指定则为per-token粒度量化,否则为per-tensor粒度量化。 --per-cha...