推理的优化 其实TGI真的做的可以的 看那个GPT4的技术材料 里面推理涉及的很多技术点在TGi里就实现了 诸如prefill, continue batch, KV Cache,warnup, stream decode,custom cuda kernel算子, tensor parallel 等等技术。最重要的是支持的模型多,还能fallback到老的推理模式,兼容性好。 这个项目前端部分serving部分用...