特别是 DW Conv,在参数量和 FLOPs 更小的情况下性能会比 Swin Transformer 高。
接着加上位置偏置信息(可学习参数),通过一系列Transformer Block得到输出 最后通过一个全连接层得到最终预测输出。 在这里插入图片描述 MobileViT结构 下图对应的是论文中的图1(b),可以看到MobileViT主要由普通卷积,MV2,MobileViT block,全局池化以及全连接层共同组成。 在这里插入图片描述 MV2即MobiletNetV2中的Inve...