将Transformer从语言领域适应到视觉领域时面临的挑战源于两个领域之间的差异,例如视觉实体的尺度变化大以及图像中像素的高分辨率相比文本中的单词。为了解决这些差异,我们提出了一种分层Transformer,其表示是通过移位窗口计算得出的。移位窗口方案通过将自注意力计算限制在非重叠的局部窗口内,同时也允许跨窗口连接,从而带来更...
其次,而Swin Transformer采用了局部窗口的注意力机制,即每个位置只与其周围的局部窗口进行关联。这种方式大大减少了注意力机制的计算量。 1.3. Swin Transformer与VIT的区别 Swin Transformer对图像进行不同倍数的下采样(如4倍、8倍、16倍),可以得到不同尺度的特征表示,模型可以学会在多尺度下理解和检测目标,适应不同...