这用于将模型生成的工具调用解析为 OpenAI API 格式。`--enable-auto-tool-choice` 是必需的。 --tool-parser-plugin TOOL_PARSER_PLUGIN 指定用于将模型生成的工具解析为 OpenAI API 格式的工具解析器插件,可以在 `--tool-call-parser` 中使用此插件中注册的名称。 --trust
根据您使用的模型选择工具调用解析器。这用于将模型生成的工具调用解析为 OpenAI API 格式。`--enable-auto-tool-choice` 是必需的。 --tool-parser-plugin TOOL_PARSER_PLUGIN 指定用于将模型生成的工具解析为 OpenAI API 格式的工具解析器插件,可以在 `--tool-call-parser` 中使用此插件中注册的名称。 --trust...
--tool-parser-plugin TOOL_PARSER_PLUGIN: 指定工具解析器插件以解析模型生成的工具调用。 --trust-remote-code: 信任 HuggingFace 的远程代码。 --typical-acceptance-sampler-posterior-alpha TYPICAL_ACCEPTANCE_SAMPLER_POSTERIOR_ALPHA: TypicalAcceptanceSampler 中基于熵的令牌接受阈值的缩放因子。
config_format=<ConfigFormat.AUTO: 'auto'>, dtype='auto', max_model_len=None, guided_decoding_backend='auto', reasoning_parser=None, logits_processor_pattern=None, model_impl='auto', distributed_executor_backend=None, pipeline_parallel_size=1, tensor_parallel_size=1, data_parallel_size=1, e...
[], return_tokens_as_token_ids=False, disable_frontend_multiprocessing=False, enable_request_id_headers=False, enable_auto_tool_choice=False, tool_call_parser=None, tool_parser_plugin='', model='Qwen/Qwen2.5-1.5B-Instruct', task='auto', tokenizer=None, hf_config_path=None, skip_tokenizer...
[--enable-auto-tool-choice] [--enable-reasoning] [--reasoning-parser {deepseek_r1}] [--tool-call-parser {granite-20b-fc,granite,hermes,internlm,jamba,llama3_json,mistral,pythonic} or name registered in --tool-parser-plugin] [--tool-parser-plugin TOOL_PARSER_PLUGIN] [--model MODEL] [...
vLLM(Very Large Language Models)也是一种高效的大型语言模型推理和部署框架,由加州大学伯克利分校开发。vLLM通过优化内存管理和计算资源的使用,从而实现对大型语言模型的高效推理和部署。vLLM可以支持安装在本地或者云环境中运行,并且同样支持GPU和CPU等多种硬件平台加速。
* `--tool-parser-plugin` -- **optional** tool parser plugin used to register user defined tool parsers into vllm, the registered tool parser name can be specified in `--tool-call-parser`. * `--chat-template` -- **optional** for auto tool choice. the path to the chat template whi...
], return_tokens_as_token_ids=False, disable_log_stats=False, disable_log_requests=False, enable_frontend_multiprocessing=False, enable_request_id_header=False, enable_auto_tool_choice=False, enable_reasoning_parser=None, tool_call_parser=None, reasoning_parser=None, tool_parser_plugin=None, ...
[], return_tokens_as_token_ids=False, disable_frontend_multiprocessing=False, enable_auto_tool_choice=False, tool_call_parser=None, tool_parser_plugin='', model='intfloat/multilingual-e5-large', task='embedding', tokenizer=None, skip_tokenizer_init=False, revision=None, code_revision=None, ...