简单来说,分组查询注意力通过将相似的文本片段绑在一起来简化大型语言模型理解大量文本的过程。这样模型可以一次专注于一组词,而不是每个词,处理效率更高。 GQA 可以看做是多查询注意力(MQA)和多头注意力(MHA)的一个折中,它可以保证 MHA 的质量,同时又有 MQA 的速度。 具体来说,GQA 将查询头分成 G 组,每组...