两年后,他于 2021 年提出的 Swin Transformer 解决了其中的效率难题,从而推进了这一网络在视觉领域走向实用。在这个工作中,他创造性地提出了“移位窗口”方法,该方法无需同时处理数以千计的局部窗口,可以将需要处理的窗口数量降低 50 倍,这大大提升了计算的并行性,在 GPU 上取得了 3 倍的速度提升。 图丨Swin ...
来自清华大学、西安交大、微软亚研的研究者提出了一种称为 MoBY 的自监督学习方法,其中以 Vision Transformer 作为其主干架构,将 MoCo v2 和 BYOL 结合,并在 ImageNet-1K 线性评估中获得相当高的准确率,性能优于 MoCo v3、DINO 等网络。近两年来,计算机视觉领域经历了两次重大转变,第一次是由 MoCo(Momentu...
在本文中,作者提出了将Swin Transformer缩放至30亿个参数的技术,使其能够使用高达1536×1536分辨率的图像进行训练,包括后归一化和缩放余弦注意,以使模型更易于在容量上进行缩放;以及对数间隔连续相对位置偏差方法,该方法可使模型更有效地跨窗口分辨率传输。经过调整的结构名为Swin Transformer V2,通过扩展容量和分辨率,它...
在 Transformer 已占主导地位的三个任务上对 Monarch Mixer 和 Transformer 进行了比较,结果表明新提出...
以上列出了主要的三个问题,还有两个小问题,一个是每次分出的window大小可能不一样,计算效率会降低,文章也提出了一种高效的计算方法。另一个问题是在计算attention的时候增加了一个postion bias matrix,能够提升性能。 作者在分类、检测、分割任务上进行了实验,效果基本上都超过了之前的transformer模型。
另一方面,在PVT或Swin Transformer 中采用的稀疏注意里力是数据不可知的,可能会限制建模长期关系的能力。 为了缓解这些问题,本文提出了一种新的可变形的自注意力模块,该模块以数据依赖的方式选择了自注意力中的key和value对的位置。这种灵活的方案使自注意力模块能够聚焦于相关区域并捕获更多信息。在此基础上,提出了...
但目前图像修复领域的sota方法都是基于卷积神经网络CNN的,但是很少有人尝试使用Transformer,尽管ViT在高级视觉任务中早已占据排行榜多年。 来自苏黎世联邦理工学院的华人博士提出一个适用于图像修复的模型SwinIR,主要包括浅层特征提取、深层特征提取和高质量图像重建三部分。
用不同阶段的Deformable attention取代了Swin Transformer shift window attention。如表7所示,只有替换最后一个阶段的注意力才能提高0.1,替换最后两个阶段的性能才能提高0.7(总体精度达到82.0)。然而,在早期阶段用更多Deformable attention代替,会略微降低精度。
(2) 从 ViT 到 MLP-Mixer 和 ConvMixer 随着 Transformer 的发展,MLP-Mixer 和 ConvMixer 论文提出了无需注意力机制的替代方案。MLP-Mixer 认为,Token-Mixing MLP 和 Channel-Mixing MLP 即可实现与 ViT 相当的性能,因为自注意力模块和后续的 FNN 模块分别负责 token 和 channel 的混合。Conv...