DistServe 通过分离架构,实现了针对性的 GPU 分配和模型并行策略选择,如采用 Tensor Parallelism(TP)提高 TTFT,Pipeline Parallelism(PP)提高吞吐。实验结果显示,相比传统 LLM 服务架构,DistServe 在不同场景下显著提升了 Goodput 和延时性能,尤其在聊天机器人和代码自动完成等应用中表现出色。作者强调,Prefill 和 Decod...