max_token_number: 4096 max_step_tokens: 4096 # 每一步推理时的最大batch_size max_batch_size: 128 # 最大输入长度 max_input_len: 1024 # 最大输出长度 max_output_len: 64 # 最大输入输出长度之和, 相当于prompt_len+max_new_tokens max_token_len: 2048 # 单个请求可用blck小于该值触发换出 ...
Huggingface推理客户端返回以下对象,该对象具有usage属性,其类型为ChatCompletionOutputUsage。
Huggingface推理客户端返回以下对象,该对象具有usage属性,其类型为ChatCompletionOutputUsage。
{"object":"error","message":"[{'type': 'extra_forbidden', 'loc': ('body', 'max_completion_tokens'), 'msg': 'Extra inputs are not permitted', 'input': 4096}]","type":"BadRequestError","param":null,"code":400} This PR marks themax_tokensfield as deprecated in theChatCompletio...