注意的是,MODEL_PATH 一定对应自己下载完事模型之后的路径 chatglm3-6b模型进行推理经过测试至少需要使用13.1G显存。如果显存不够的话,可以开启量化,经过测试对于模型进行int4的量化需要的显存是6G。 需要进行开启模型量化请使用下面的代码进行模型的加载 tokenizer = AutoTokenizer.from_pretrained("MODEL_PATH", trust_...
关于更多的使用说明,包括如何运行命令行和网页版本的 DEMO,以及使用模型量化以节省显存,请参考我们的Github Repo。 For more instructions, including how to run CLI and web demos, and model quantization, please refer to ourGithub Repo. 协议(License) ...