来看核心的make_quant函数,首先就是dynamically_import_QuantLinear,这个就是根据用户参数选择对应的QuantLinear,目前支持基础的cuda/exllama/marlin这几种kernel。其对应的QuantLinear的具体实现在auto_gptq/nn_modules/qlinear目录下。 在根据参数找到对应Quantlinear后,接下来就是设置输入输出维度,然后用setattr替换原有l...
AutoGPTQ 代码库——一站式地将 GPTQ 方法应用于大语言模型 AutoGPTQ 代码库让用户能够使用 GPTQ 方法量化 Transformers 中支持的大量模型,而社区中的其他平行工作如GPTQ-for-LLaMa、Exllama和llama.cpp则主要针对 Llama 模型架构实现量化策略。相较之下,AutoGPTQ 因其对丰富的 transformers 架构的平滑覆盖而广受...
截止目前,我们已经集成了包括 CUDA 算子在内的最常用的优化选项。对于更多高级选项如使用 Triton 算子和 (或) 兼容注意力的算子融合,请查看AutoGPTQ代码库。 🤗 Transformers 对 GPTQ 模型的本地化支持 在安装 AutoGPTQ 代码库和optimum(pip install optimum) 之后,在 Transformers 中运行 GPTQ 模型将非常简单:...
截止目前,我们已经集成了包括 CUDA 算子在内的最常用的优化选项。对于更多高级选项如使用 Triton 算子和 (或) 兼容注意力的算子融合,请查看 AutoGPTQ 代码库。 🤗 Transformers 对 GPTQ 模型的本地化支持 在 安装 AutoGPTQ 代码库 和optimum(pip install optimum) 之后,在 Transformers 中运行 GPTQ 模型将非...
使用QLoRA进行训练请参考下个章节。 1.1.3 GPTQ量化 说到GPTQ,就要说起它的老祖先OBD、OBS、OBC等剪枝算法(否则无法理解GPTQ)。本质上来说,参数剪枝是参数量化的一种特殊情况(把参数直接置为0这个特殊量化值)。 先说OBD。 论文:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=17c0a7de...
1.1.3 GPTQ量化 说到GPTQ,就要说起它的老祖先OBD、OBS、OBC等剪枝算法(否则无法理解GPTQ)。本质上来说,参数剪枝是参数量化的一种特殊情况(把参数直接置为0这个特殊量化值)。 先说OBD。 论文:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=17c0a7de3c17d31f79589d245852b57d083d386e...
1.1.3 GPTQ量化 说到GPTQ,就要说起它的老祖先OBD、OBS、OBC等剪枝算法(否则无法理解GPTQ)。本质上来说,参数剪枝是参数量化的一种特殊情况(把参数直接置为0这个特殊量化值)。 先说OBD。 论文:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&do... ...
使用QLoRA进行训练请参考下个章节。 1.1.3 GPTQ量化 说到GPTQ,就要说起它的老祖先OBD、OBS、OBC等剪枝算法(否则无法理解GPTQ)。本质上来说,参数剪枝是参数量化的一种特殊情况(把参数直接置为0这个特殊量化值)。 先说OBD。 论文:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=17c0a7de...
1.1.3 GPTQ量化 说到GPTQ,就要说起它的老祖先OBD、OBS、OBC等剪枝算法(否则无法理解GPTQ)。本质上来说,参数剪枝是参数量化的一种特殊情况(把参数直接置为0这个特殊量化值)。 先说OBD。 论文:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=17c0a7de3c17d31f79589d245852b57d083d386e...
1.1.3 GPTQ量化 说到GPTQ,就要说起它的老祖先OBD、OBS、OBC等剪枝算法(否则无法理解GPTQ)。本质上来说,参数剪枝是参数量化的一种特殊情况(把参数直接置为0这个特殊量化值)。 先说OBD。 论文:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=17c0a7de3c17d31f79589d245852b57d083d386e...