vLLM和Orca都是采用FCFS策略的iteration-level的服务系统(最新的vLLM也支持了chunked prefill调度策略),它们都优先考虑prefill。不同点在vLLM的默认调度策略不支持prefill和decode混合在一个batch里,但是Orca支持。这种prefill-prioritized策略能够为后续的decode阶段组更大的batch,可以提供系统的吞吐,不过是以牺牲TBT为代价...
做了chunked prefill 后,prefill 的开销会略微增大。因为计算后续 chunk 的 KV 时需要不断地从 GPU memory 中里读出当前 chunk 的 KV 到 kernal 里面;而不做 chunked prefill 时,最开端的那些 KV Cache 可以不用反复从 GPU memory 中反复读取进入 kernal,毕竟他们一直在 kernal 里面。 即便如此,我们仍旧要做 ...
This approach leverages the chunked prefill of the key-value cache to perform segment-wise inference, which enables efficient processing of extensive contexts... M Russak,U Jamil,C Bryant,... 被引量: 0发表: 2024年 ChunkedTejas The simulation speed of such simulators is therefore critical to th...