根据并非所有注意头都具有同等重要性这一观点,他们提出了混合头注意力(MoH),这是一种将注意头视为混合专家模型(MoE)机制中的专家的新架构。MoH 有两个显著优势:首先,MoH 使每个 token 都能选择适当的注意力头,从而在不影响准确性或增加参数数量的情况下提高推理效率。其次,MoH 用加权求和取代了多头注意力中的标准求和,为注意力机制引入了灵活性