GQA 中查询头被分成组,每组共享一个键头和一个值头。这样的话,GQA 就可以在多头注意力和多查询注意力之间进行插值,实现质量和速度之间的平衡。 具有单组(只有一个键和值头)的 GQA 等同于 MQA,而具有与头数量相等的组的 GQA 等同于 MHA。 03有哪些常见的实现 GQA 的方法? 第一种是基于相似性进行分组查询,...