1.Multi-Dconv Head Transposed Attention 论文:https://arxiv.org/abs/2111.09881 1.1 MDTA Transformer中计算量主要来自于注意力计算部分,为了降低计算量,作者构建了MDTA,不在像素维度计算 attention,而是在通道维度计算。过程很简单,先用 point-wise conv 和 dconv 预处理,在通道维计算 atteniton,如下图所示。