chatglm-6b全参数微调

2024-12-05 11:23:41

拼音 [ 拼音 ]

...其他Block的参数? · Issue #1444 · THUDM/ChatGLM-6B...

在继续微调时会导致梯度爆炸,loss出现nan。(LR修改成了全量微调时的1e-4) Expected Behavior No response Steps To Reproduce 在p-tuning/modeling_chatglm.py中第850行代码起添加如下代码: for k, v in self.prefix_encoder.named_parameters(): v.requires_grad = False for k, v in self.layers[0].na...
大模型微调实践:ChatGLM-6B全参数微调

6B(62亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。较低的部署门槛: FP16 半精度下,ChatGLM-6B 需要至少 13GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4), 使得 ChatGLM-6B 可以部署在消费级显卡上。更长的序列长度: 相比 G...