vLLM 0.6.0中默认启用该功能,可以通过设置参数--disable-async-output-proc来手动关闭。#禁用/启用异步输出处理 vllm serve facebook/opt-125m \ --max-model-len 2048 \ --use-v2-block-manager \ --disable-async-output-proc #移除该参数则默认启用以下为测试结果
vLLM 执行的设备类型。 --disable-async-output-proc 禁用异步输出处理。这可能会导致性能下降。 --disable-custom-all-reduce 参见ParallelConfig。 --disable-fastapi-docs 禁用FastAPI 的 OpenAPI 模式、Swagger UI 和 ReDoc 端点。 --disable-frontend-multiprocessing 如果指定,将在与模型服务引擎相同的进程中运行 ...
--device{auto,cuda,neuron,cpu,openvino,tpu,xpu,hpu}vLLM 执行的设备类型。 --disable-async-output-proc 禁用异步输出处理。这可能会导致性能下降。 --disable-custom-all-reduce 参见ParallelConfig。 --disable-fastapi-docs 禁用FastAPI 的 OpenAPI 模式、Swagger UI 和 ReDoc 端点。 --disable-frontend-mult...
prefix_caching=None, chunked_prefill_enabled=False, use_async_output_proc=False, pooler_config=None, compilation_config={"compile_sizes": [], "inductor_compile_config": {"enable_auto_functionalized_v2": false}, "cudagraph_capture_sizes": [256, 248, 240, 232, 224, 216, 208, 200, 192,...
No response 🐛 Describe the bug After building Docker Images withDockerfile.arm, it built successfully but when attempts to rundocker run -it \ --rm \ --network=host \ vllm-cpu-env --device="cpu" --disable_async_output_proc --enforce-eager --model=Qwen/Qwen2.5-1.5B-Instruct --dtyp...
[--disable-async-output-proc] [--scheduling-policy {fcfs,priority}] [--scheduler-cls SCHEDULER_CLS] [--override-neuron-config OVERRIDE_NEURON_CONFIG] [--override-pooler-config OVERRIDE_POOLER_CONFIG] [--compilation-config COMPILATION_CONFIG] [--kv-transfer-config KV_TRANSFER_CONFIG] [--worker...
traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=, served_model_name='Qwen2.5-1.5B-Instruct', num_scheduler_steps=1, multi_step_stream_outputs=True, enable_prefix_caching=False, chunked_prefill_enabled=False, use_async_output_proc=True, disable...
enable_chunked_prefill:bool,max_num_batched_tokens:int,distributed_executor_backend:Optional[str],gpu_memory_utilization:float=0.9,num_scheduler_steps:int=1,use_v2_block_manager:bool=False,download_dir:Optional[str]=None,load_format:str=EngineArgs.load_format,disable_async_output_proc:bool=False,...
input0/Qwen2.5-3B-Instruct-AWQ, num_scheduler_steps=1, chunked_prefill_enabled=False multi_step_stream_outputs=True, enable_prefix_caching=False, use_async_output_proc=True, use_cached_outputs=False, mm_processor_kwargs=None) INFO 11-28 10:39:43 model_runner.py:1056] Starting to load ...
caching=False, use_async_output_proc=True, use_cached_outputs=False, mm_processor_kwargs=None) INFO 11-28 11:21:27 model_runner.py:1056] Starting to load model /input0/Qwen2.5-1.5B-Instruct... Loading safetensors checkpoint shards: 0% Completed | 0/1 [00:00...