GQA:Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints https://arxiv.org/pdf/2305.13245 提高模型性能,Llama2使用了分组注意力机制,主要思想就是降低key-value的head数量来提升性能。对于RoPE感兴趣的可以详细阅读:SSDesign:一文搞懂绝对位置编码及RoPE旋转位置编码 不同attention之间对比...
通过使用 KV 缓存,Llama2 模型能够更高效地处理长对话和复杂任务,提高了模型的性能和用户体验。二、分组查询注意力(GQA)分组查询注意力(GQA)是 Llama2 模型中另一个重要的技术。传统的 Transformer 模型使用自注意力机制来获取输入序列的上下文信息,但在某些情况下,这种自注意力机制可能导致过多的关注于序列中的某些...