在继续微调时会导致梯度爆炸,loss出现nan。(LR修改成了全量微调时的1e-4) Expected Behavior No response Steps To Reproduce 在p-tuning/modeling_chatglm.py中第850行代码起添加如下代码: for k, v in self.prefix_encoder.named_parameters(): v.requires_grad = False for k, v in self.layers[0].na...
6B(62亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM-6B 成为可能。 较低的部署门槛: FP16 半精度下,ChatGLM-6B 需要至少 13GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4), 使得 ChatGLM-6B 可以部署在消费级显卡上。 更长的序列长度: 相比 G...