和tensor_parallel_size为1时表现一致 感觉不是模型文件的原因,也不是glm-4模型的问题,我用qwen的模型一样会有这个问题,当2卡的vllm出现kv空间不足的warning时就会出现感叹号。我在vllm的仓库了发现了类似的issue Qwen1.5-14B-Chat使用vllm==0.3.3版本在Tesla V100-PCIE-32GB显卡上部署结果全部是感叹号,无结果 ...
docker imagevllm/vllm-openai:v0.2.7, startup command: docker run -it -d -p 5003:8000 \ --name vllm-api \ -v $(pwd)/huggingface:/root/.cache/huggingface \ -v $(pwd)/Qwen-14B-Chat-Int4:/workspace/qwen \ --runtime nvidia --gpus all \ --ipc=...