大模型推理:从模型分析到计算优化(三) 在上一篇文章中,我们看到了大语言模型在单卡的较小规模实现中各个推理关键指标如延迟(latency)、吞吐量(throughput)和推理成本与用户指定的模型设定和硬件参数之间的关联。而大规模并行化推理与之前的单卡推理有显著的不同:并行化推理会将模型在不同计算卡上进行拆分,推理时计算...
相比于其他的神经网络部分来说,大语言模型中的attention部分具有一个显著的特性是它需要保存K/V_cache,这两个张量与推理的总token数量成正比,即正比于batch_size*sequence_length,而当这一数量较大时,K/V_cache的大小会变得相当可观!还是以LLaMA-65B模型为例,如果推理的token长度达到模型允许的最大值2048时 ,它们...
他们首先分析了 LLM 推理效率低下的主要原因,即模型规模过大、二次复杂性注意力操作和自动回归解码方法;然后,提出了一个全面的分类法,将目前的文献整理为数据级、模型级和系统级优化;此外,还对关键子领域中的代表性方法进行了比较实验,从而提供定量见解;最后,进行了一些知识总结,并讨论了未来的研究方向。