在T2T模块中,输入图像首先被软分割为patch,然后unfold为一些列的tokens T0,T2T模块中tokens的长度逐渐减少,这里使用两次迭代输出Tf,然后在T2T-ViT主干将固定token作为输入并作出预测。 为了公平地与常见手工设计的CNN进行比较,使用T2T-ViT模型具有ResNets和MobileNets想打大小,具体来说设计了三种模型,T2T-ViT-14,T2T-Vi...