代码:github.com/microsoft/CS 主要工作: 提出CSWin Transformer,这是一种高效且有效的基于 Transformer 的主干,用于通用视觉任务。 Cross-shaped window attention(交叉形状窗口注意力机制) 对横条纹和纵条纹进行并行自注意计算。对条纹宽度的影响进行了详细的数学分析,并为 Transformer 网络的不同层改变了条纹宽度,从而...
1. self-attention被cross-shaped window self-attention替代。 2. 为了引入局部归纳偏置(local inductive bias),LePE(Locally-Enhanced Positional Encoding)作为与self-attention平行的模块被加入到了结构中。下文会具体介绍。 Cross-Shaped Window Self-Attention 在计算机视觉任务中(目标检测,分割等),原先的模型计算量...
CSWin 总体框架如上图所示,主要是一个四阶段的网络,只是 attention 部分替换为了 cross-shaped window 注意力。 **(1)cross-shaped window self-attention。 ** 在四个阶段中,stripe的宽度依次为[1,2,7,7],可以看出这样设计,一开始感受野较小,后面感受野较大,和之前一些网络的原理也类似,一开始提取纹理等细节...