一文通透各种注意力从多头注意力mha到分组查询注意力gqa多查询注意力mqa

2025-03-11 14:17:52

拼音 [ 拼音 ]

一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询...

这是一种多查询注意的泛化,它通过折中(多于一个且少于查询头的数量,比如4个)键值头的数量,使得经过强化训练的GQA以与MQA相当的速度达到接近多头注意力的质量,即速度快质量高经实验论证,GQA 变体在大多数评估任务上的表现与 MHA 基线相当,并且平均优于 MQA 变体多头注意力MHA 分组查询注意力GQA 多查询注意力...
一文通透各种注意力:从多头注意力MHA到分组查询注意力GQA、多查询...

或具有多个 KV 投影的分组查询注意力(grouped-query attention,简称GQA),LLaMA2和Mistral均用的这个这是一种多查询注意的泛化,它通过折中(多于一个且少于查询头的数量,比如4个)键值头的数量,使得经过强化训练的GQA以与MQA相当的速度达到接近多头注意力的质量,即速度快质量高经实验论证,GQA 变体在大多数评估任务...