和tensor_parallel_size为1时表现一致 感觉不是模型文件的原因,也不是glm-4模型的问题,我用qwen的模型一样会有这个问题,当2卡的vllm出现kv空间不足的warning时就会出现感叹号。我在vllm的仓库了发现了类似的issue Qwen1.5-14B-Chat使用vllm==0.3.3版本在Tesla V100-PCIE-32GB显卡上部署结果全部是感叹号,无结果 ...
import os from vllm import LLM, SamplingParams if __name__ == '__main__': prompts = ['<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nYou are a helpful chatbot who always responds to requests.<|eot_id|><|start_header_id|>user<|end_header_id|>\n\nWhat is...
vLLM新版本性能炸裂!v0.7.3正式支持DeepSeek-AI多令牌预测模块,实测推理速度最高提升69%。只需在启动参数添加--num-speculative-tokens=1即可开启,还能选配--draft-tensor-parallel-size=1进一步优化。更惊人的是,在ShareGPT数据集测试中,该功能实现了81%-82.3%的预测接受率。这意味着在保持精度的同时,大幅缩短了...
我曾经在GCP上遇到过这个问题,使用的是vLLM的旧版本。后来发现ray在GCP上检测GPU时出现了错误。这个问...
vllm --tensor-parallel-size 2 fails to load on GCP我在qwen72b模型上遇到了同样的问题。
我曾经在GCP上遇到过这个问题,使用的是vLLM的旧版本。后来发现ray在GCP上检测GPU时出现了错误。这个...
vllm [Bug]: WSL2(也适用于Docker)可以处理1个GPU工作负载,但无法处理2个,(--tensor-parallel-...
Your current environment vllm version: '0.5.0.post1' 🐛 Describe the bug When I set tensor_parallel_size=1, it works well. But, if I set tensor_parallel_size>1, below error occurs: RuntimeError: Cannot re-initialize CUDA in forked subproc...
Describe the bug Incorrect vLLM tensor-parallel-size calculated by auto-scheduling and causes inference engine error Steps to reproduce In an A800x4 environment, try to deploy ModelScope/OpenGVLab/InternVL2_5-78B-AWQ with --trust-remote-...
我曾经在GCP上遇到过这个问题,使用的是vLLM的旧版本。后来发现ray在GCP上检测GPU时出现了错误。这个...