卷爆了 | 看SPViT把Transformer结构剪成ResNet结构!!!mp.weixin.qq.com/s/WDr1rmJ0H0SJ1_r4vw1GGw Vision Transformers(ViTs)在各种计算机视觉任务中取得了非常不错的性能。然而,使用multi-head self-attention(MSA)建模全局关联会带来2个问题:大量的计算资源消耗和缺乏作用于局部特征建模的内在归纳偏差。 目...