在VLLM tensor_parallel_size > 1的情况下使用Ray做数据并行,会出现下面日志,然后会卡死: (infer pid=899476) Calling ray.init() again after it has already been called. 这是因为我们在外部启动Ray的时候,分配了资源,而由于tensor_parallel_size > 1,VLLM在内部也会启动Ray分配资源做张量并行,两者出现了...
tensor_parallel_size=2,gpu_memory_utilization=0.95, max_model_len=2048, max_num_seqs=1024 ) gpu_memory_utilization vllm会预先分配显存,默认值是0.9,这和输入的batch size大小无关。 gpu_memory_utilization设置越大,可占用显存越大,就有更多显存可用于 KV 缓存,推理速度也会越快。在显存足够的情况下,gp...
这两天一直被一个问题困扰,用vLLM加载千问时不能开并行(tensor_parallel_size>1),一开就会卡在ray阶段,最初是提示Started a local Ray instance,后来手工启动ray集群,就提示connected to Ray cluster。无论怎样调都无法跑下去,根本不会加载模型,换了各种版本的vllm、transformer、ray、显卡、甚至是用本来可以跑的...
当tensor_parallel_size=2被使用时,输出结果为:
llm = LLM(model="facebook/opt-125m", tensor_parallel_size=2) # 初始化 LLM outputs = llm.generate(prompts, sampling_params) # 完成推理 for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"Prompt: {prompt!r}, Generated text: {generated_text!r...
from vllm import LLM, SamplingParams prompts = [ "Have you followed marsggbo in Zhihu?", "你一键三连了吗?" ] # 输入prompts sampling_params = SamplingParams(temperature=0.8, top_k=50) # 采样策略 llm = LLM(model="facebook/opt-125m", tensor_parallel_size=2) # 初始化 LLM outputs = ...
当tensor_parallel_size=2被使用时,输出结果为:
Your current environment vllm version: '0.5.0.post1' 🐛 Describe the bug When I set tensor_parallel_size=1, it works well. But, if I set tensor_parallel_size>1, below error occurs: RuntimeError: Cannot re-initialize CUDA in forked subproc...
和tensor_parallel_size为1时表现一致 感觉不是模型文件的原因,也不是glm-4模型的问题,我用qwen的模型一样会有这个问题,当2卡的vllm出现kv空间不足的warning时就会出现感叹号。我在vllm的仓库了发现了类似的issue Qwen1.5-14B-Chat使用vllm==0.3.3版本在Tesla V100-PCIE-32GB显卡上部署结果全部是感叹号,无结果...
llm=LLM(model="facebook/opt-125m",tensor_parallel_size=2)# 初始化LLMoutputs=llm.generate(prompts,sampling_params)# 完成推理foroutputinoutputs:prompt=output.prompt generated_text=output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}") ...