OpenAI 的稀疏自注意力,是 Atrous Self Attention 和 Local Self Attention 的结合体。每个元素只与相对距离不超过 k 的、相对距离为 k, 2k, 3k,…的元素有关联。 Sparse Self Attention 的注意力矩阵(左)和关联图示(右) Multi-query attention Multi-query attention 与 Transformer 中普通的 Multi-head attenti...
Sparse attention 在计算attention matrix时不会attend 每个token,而是遵循下面的公式(6).根据确定sparse connection的方法又可以细分为 position-based 和 content-based 两种。 2.1.1 Position-based Sparse Attention 对于position-based sparse attention来说,其主要的特点在于attention matrix模式的设计,这里首先介绍一...