如图为MobileVit整体结构,我们可以看到输入图片 X\in R^{H*W*C} 经过一个普通卷积层(Conv3*3)输入到连续的五个MV2中,当(H,W)为32*32时来到了网络的核心部分:MobileVit-Block,接着Block与MV2交叉堆叠,最后一个Block的输出通过一个Conv-1*1 + 全局池化来到了全连接层,紧接着得到最终的输出。