AttributeError: 'NoneType' object has no attribute 'int4WeightExtractionHalf' Expected Behavior No response Steps To Reproduce Windows环境加载chatglm-6b-int4-qe模型,GPU启动,提问时报错。 Environment - OS:windows 10 - Python:3.9 - Transformers:4.26.1 - PyTorch:1.10 - CUDA Support (`python -c "...
Contributor YIZXIY commented Mar 24, 2023 同3060M,不要说int4-qe了,就是int4都能正常运行,关闭独显直连以减少显存占用,还有就是不要边玩游戏边用chatglm Author zerodegress commented Mar 24, 2023 同3060M,不要说int4-qe了,就是int4都能正常运行,关闭独显直连以减少显存占用,还有就是不要边玩游戏边...
File "/.cache/huggingface/modules/transformers_modules/chatglm-6b-int4/quantization.py", line 53, in forward weight = extract_weight_to_half(quant_w, scale_w, weight_bit_width) File "/.cache/huggingface/modules/transformers_modules/chatglm-6b-int4/quantization.py", line 262, in extract_wei...
更高效的推理:基于Multi-Query Attention技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用:在官方的模型实现下,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K。 更开放的协议:ChatGLM2-6B 权重对学术研究完全开放,在填写问卷进行登记后亦允许免费商业使用。
首先我用train_chat.sh对chatglm-6b-int4模型进行训练。 然后我尝试通过https://github.com/THUDM/ChatGLM-6B/tree/main/ptuning#%E6%A8%A1%E5%9E%8B%E9%83%A8%E7%BD%B2的方法来加载微调后的模型。 在执行model.transformer.prefix_encoder.load_state_dict(new_prefix_state_dict)的时候报错: ...
针对chatglm-6b-int4项目中的quantization.py我改了两处: 注释掉“from cpm_kernels.kernels.base import LazyKernelCModule, KernelFunction, round_up” 将“kernels = Kernel(”改成“kernels = CPUKernel(” 然后,安装gcc(https://github.com/skeeto/w64devkit/releases) ...
Cannot load cpu kernel, don't use quantized model on cpu. Expected Behavior 希望其正常编译完成,并成功量化,不然小显存不太够 或者作者用的gcc是什么版本的? Steps To Reproduce 在cli_demo.py中加载的模型是这个 model = AutoModel.from_pretrained("./models/THUDM/chatglm-6b-int4-qe", trust_remote...
用CPU加载chatglm-6b-int4模型,手动编译并指定kernel则可以成功运行模型,但运算速度慢。 Expected Behavior No response Steps To Reproduce linux下加载chatglm-6b-int4模型,GPU kernel编译失败,手动编译并指定kernel也未解决。 Environment - OS: Ubuntu 5.4.0-6ubentul~16.04.9 - Python: 3.8.5 - Transformers...
trust_remote_code=True).float() # model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4"...
这边想在CPU int4下加载,但提示没有cpu kernel 设置如下: model = AutoModel.from_pretrained("THUDM/chatglm-6b-int4",trust_remote_code=True).float() 启动如下: venv\Scripts\activate && streamlit run web_demo2.py --server.port 6006 Explicitly passing arevisionis encouraged when loading a model...