CNN能够通过小范围的卷积,降低局部冗余,减小计算量,但在捕获全局依赖中很有限制。 ViT能够通过Self-Attention很有效的捕获长距离的依赖,但是盲目的去计算所有tokens之间的相似关系,会带来很大的计算冗余。其在浅层网络上很难有效的去编码局部的特征。 本文的作者进行了一个实验:如下图所示,显示的是ViT网络的第三层的...