1.将basic_demo中的openai_api_server中的 engine_args = AsyncEngineArgs( model=MODEL_PATH, tokenizer=MODEL_PATH, # 如果你有多张显卡,可以在这里设置成你的显卡数量 tensor_parallel_size=1, dtype="bfloat16", trust_remote_code=True, # 占用显存的比例,请根据你的显卡显存大小设置合适的值,例如,如果...