1、Lora 微调 chatglm3-6b-base 的推理 (1)查看输出目录 (2)微调日志 2、推理 (1)修改代码 (2)使用 openai_api.py 运行模型提供接口 (3)无法设置 eos_token 属性问题 (4)缺失 config.json 问题 (5)调用 /v1/chat/completions (6)使用 inference.py 测试 N、后记 0、背景 搞个新环境研究 GPT、GPT...
chatglm3-6b模型进行推理经过测试至少需要使用13.1G显存。如果显存不够的话,可以开启量化,经过测试对于模型进行int4的量化需要的显存是6G。 需要进行开启模型量化请使用下面的代码进行模型的加载 tokenizer = AutoTokenizer.from_pretrained("MODEL_PATH", trust_remote_code=True) model = AutoModel.from_pretrained("...
glm3-6b是在glm3-6b-base的基础上增加对话数据微调而来的吗? 为什么glm3-6b-base在开源数据集的评测效果比glm3-6b还要好很多?是否还有glm3-6b存在的意义了? 那么在一般场景中该如何选择模型了?
1、chatglm3-6b-base 基于 Lora 的微调 - 参考信息 2、环境准备 (1)项目工作目录 (2)克隆 https://github.com/THUDM/ChatGLM3 代码 (3)克隆 chatglm3-6b-base 模型 (4)创建虚拟环境 (5)激活环境安装依赖 (6)更改 torch==2.1.2 为 torch==2.1.2+cu118 3、微调 (1)拷贝微调数据和脚本 (2)微调...