在这项工作中,作者提出了一种名为Cros-Layer Latent Attention (CLLA)的架构,用于LLM中的KV缓存压缩。作者的目标是将KV缓存压缩到不到其原始大小的2%,同时保持可比性能水平。在CLLA中,作者探讨了将各种KV缓存压缩方法的方面集成到一个统一和稳定的框架中的潜力。具体而言,作者通过注意力头/维度方面、层方面和量化...
对Key和Value进行了一个低秩联合压缩(即Low-Rank Key-Value Joint Compression,通过低秩转换为一个压缩的KV,使得存储的KV的维度显著减小) 如上图所示(在MHA GQA中大量存在于keys values中的KV缓存——带阴影表示,到了MLA中时,只有一小部...
ChunkKV 通过将 token 按语义组织成块并结合层级索引复用技术,在长文本推理中有效压缩 KV 缓存,相比其他方法在 LongBench、Needle-In-A-Haystack、GSM8K 和JailbreakV 等基准测试中取得了更高的准确率和效率提升。 论文介绍 高效的LLM长上下文推理需要管理大量的GPU内存,因为key-value (KV)缓存需要很大的存储空间。
Q-Filters 在多个评估场景中表现出色,始终优于现有的 KV 缓存压缩方法。在对 Pile 数据集的语言建模测试中,该技术在所有压缩方案中实现了最低的困惑度。特别是在 Llama-3.1-70B 模型上,Q-Filters 在上下文保留至关重要的序列后半部分显示出显著的困惑度降低。在 “针在干草堆” 任务中,Q-Filters 保持了91%...
"Model Tells You What To Discard: Adaptive KV Cache Compression For LLMs",来自UIUC和微软。 这项研究介绍自适应KV缓存压缩,一种即插即用的方法,可以减少大语言模型(LLM)生成推理的内存占用。与保留所有上下文token的 Key和Value向量的传统KV缓存不同,作者进行有针对性的分析来辨别注意模块的内在结构。然后,基...
理论与实际结果一致验证了这一结论:注意力头间的适配性预算分配能够显著提升KV缓存压缩的效果。 通过适配性头间预算分配增强KV Cache压缩质量 作者将Ada-KV这一适配性预算分配策略结合到现有的两个领先的Cache压缩方案:SnapKV和PyramidKV中...
中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。 改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。 打破KV Cache压缩将所有注意力头分配相同压缩预算的常规做法,针对不同的注意力头...
改进KV缓存压缩,大模型推理显存瓶颈迎来新突破—— 中科大研究团队提出Ada-KV,通过自适应预算分配算法来优化KV缓存的驱逐过程,以提高推理效率。 打破KV Cache压缩将所有注意力头分配相同压缩预算的常规做法,针对不同的注意力头进行适配性压缩预算分配 展开来说,由于大模型在自回归生成过程中,每生成一个新token都需要将...
1)KV缓存压缩 在Transformer架构的大语言模型(LLM)中,KV缓存(Key-Value Caching) 是一种优化推理效率的核心技术。其原理是:在生成文本的每个步骤中,模型会将中间计算的键(Key)和值(Value)矩阵存储下来,避免重复计算。然而,随着序列长度增加,KV缓存的内存占用会急剧增长。因此,KV缓存压缩技术应运而生,旨在减少内存...
在压缩算法设计上,RazorAttention 对检索头的 KV 缓存进行保护,并直接减少了非检索头的 KV 缓存大小,以达到压缩的目的。此外,论文提出了 Compensation token,对于丢弃掉的 KV 缓存以平均值的形式保留在非检索头中,达到保护非检索头的局部视野的效果。 实验结果 ...