针对上述两个问题,我们提出了一种包含滑窗操作,具有层级设计的Swin Transformer。 其中滑窗操作包括不重叠的local window,和重叠的cross-window。将注意力计算限制在一个窗口中,一方面能引入CNN卷积操作的局部性,另一方面能节省计算量 原理: 论文:[2103.14030v1] Swin Transformer: Hierarchical Vision Transformer using...