python -m vllm.entrypoints.api_server --model ./your_model --max-num-seqs 10 这里将max_num_seqs设置为10,你可以根据具体情况调整这个值。 监控GPU内存使用情况: 在调整上述参数后,使用工具如nvidia-smi来监控GPU内存使用情况,确保调整后的设置能够有效降低内存使用并避免内存不足的情况。你可以定期运行以...