不过AWQ 和 SmoothQuant 两篇文章的量化粒度都很大,都是 per-channel 的。 SmoothQuant: SmoothQuant 的思路其实比较简单,也就是如上图所示的,激活值 X 难以量化,因为异常值会拉伸量化范围,导致大多数数值只有很少的有效位,这也就是我前面所说的影响了量化值的表达能力的问题。我们通过数学上等效的逐通道缩放变换...
干货!TensorRT-LLM路线图分享 | NVIDIA 在 GitHub 上公开了 TensorRT-LLM 的路线图,帮助用户规划产品开发。TensorRT-LLM 是一个专为 NVIDIA GPU 优化大语言模型推理的库,提供先进的优化功能,如自定义 Attention Kernel、Inflight Batching、Paged KV Caching 和多种量化技术(FP8、INT4 AWQ、INT8 SmoothQuant 等)...