这里解决的是使用 Auto-GPTQ 或者Transformers 导入GPTQ 模型后推理速度很慢的问题。 值得注意的是,这个问题很有可能是因为安装不正确,所以 GPTQ 无法正确使用 GPU 进行推理,也就是说无法进行加速,即便 print(model.device) 显示为 "cuda"。类似的问题见 Is This Inference Speed Slow? #130
跑Yi官方给的gptq量化脚本,发生报错(图1)网上查了一下,这个bug实际上autogptq已经解决了(图2),于是我在自己环境中看了一下同一个脚本,确实已经改过来了,后续又尝试了一些config(图3),依然是相同的报错于是索性找到了调用QuantLinear的统一接口,就是在auto_gptq/utils/import_utils.py 的dynamically_import_Quan...
参考一下这个页面上的依赖项安装,https://modelscope.cn/models/qwen/Qwen-14B-Chat-Int4/summary感觉...
这与AutoGPTQ无关。您需要将CUDA版本升级到12,并使用相应版本的PyTorch来运行构建。是的,它们需要匹配...
Yi模型finetune环境配置踩坑之一 | 之前搞定了Yi模型用autogptq进行量化的环境配置,紧接着又尝试进行finetune,依然是直接跑Yi官方给的版本,出现报错(图1) 应该是cuda和torch版本的问题,于是依照自己的cuda版本,在pytorch网站找到了历史的兼容版本。(图2) ...