我的解决思路是运行ChatGLM-6b-int4,如果ChatGLM-6b-int4可以运行,那么可以参照着ChatGLM-6b-int一步步调试以最终跑通ChatGLM2-6b-int4。 结果是发现ChatGLM-6b-int4也跑不通,不过已经有一些相关的[issue](https://github.com/THUDM/ChatGLM-6B/issues/166)。 参考其他issue我解决了一个问题:编译出来的qu...
Compile cpu kernel gcc -O3 -fPIC -std=c99 C:\Users\Administrator.cache\huggingface\modules\transformers_modules\THUDM\chatglm2-6b-int4\382cc704867dc2b78368576166799ace0f89d9ef\quantization_kernels.c -shared -o C:\Users\Administrator.cache\huggingface\modules\transformers_modules\THUDM\chatglm2-6b...
针对chatglm-6b-int4项目中的quantization.py我改了两处: 注释掉“from cpm_kernels.kernels.base import LazyKernelCModule, KernelFunction, round_up” 将“kernels = Kernel(”改成“kernels = CPUKernel(” 然后,安装gcc(https://github.com/skeeto/w64devkit/releases) ...
更高效的推理:基于Multi-Query Attention技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。 更开放的协议:ChatGLM2-6B 权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
Load parallel cpu kernel failed C:\Users\admin\ .cache\huggingface\modules\transformers_modules\Chatglm2-6b-int4\quantization_kernels_parallel.so: Traceback (most recent call last): File "C:\Users\admin/.cache\huggingface\modules\transformers_modules\Chatglm2-6b-int4\quantization.py", line 138...
使用CPU无法运行chatglm-6b-int4,但可以运行chatglm-6b, 主要的运行错误如下 Traceback (most recent call last): File "C:\Users\Azure/.cache\huggingface\modules\transformers_modules\chatglm_6b_int_4\quantization.py", line 18, in <module> from cpm_kernels.kernels.base import LazyKernelCModule, ...
quantization_kernels.so为手动编译,参考为https://github.com/THUDM/ChatGLM-6B/issues/166 前代的chatglm-6b-int4在量化时似乎也有这样的错误,故参考了一下: https://github.com/THUDM/ChatGLM-6B/issues/214 https://github.com/THUDM/ChatGLM-6B/issues/162 Failed to load cpm_kernels:name 'CPUKern...
用CPU加载chatglm-6b-int4模型,手动编译并指定kernel则可以成功运行模型,但运算速度慢。 Expected Behavior No response Steps To Reproduce linux下加载chatglm-6b-int4模型,GPU kernel编译失败,手动编译并指定kernel也未解决。 Environment - OS: Ubuntu 5.4.0-6ubentul~16.04.9 - Python: 3.8.5 - Transformers...
modelFile = 'G:\\GPT\\ChatGLM2-6B\\cache\\chatglm2-6b-int4' mf = Path(modelFile) tokenizer = AutoTokenizer.from_pretrained(mf, trust_remote_code=True) model = AutoModel.from_pretrained(mf, trust_remote_code=True).cuda() 相对路径也能用 modelFile = './cache/chatglm2-6b-int4' Au...
trust_remote_code=True).float() # model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4"...