排查之后发现是代码逻辑有问题,目前的微调脚本好像没有考虑到微调数据不包含图片的情况。实际上原本的GLM4V在推理阶段message中不包含image是能够正常推理的。 inputs = tokenizer.apply_chat_template([{"role": "user", "content": query}], add_generation_prompt=True, tokenize=True, return_tensors="pt", ...