除了NLP领域,Transformer结构也被应用到了计算机视觉领域,由此诞生了一系列吊打CNN的模型,如ViT、BEiT和MAE。可以说,Transformer结构继RNN、CNN(以及其一系列变体LSTM、GRU、ResNet、DenseNet等)之后,在Inductive Bias方向上打开了一个新世界的大门。Transformer主要特点:(1)通过Self-Atte