在ImageNet数据集上进行的实验表明,Swin Transformer模型的性能优于VIT模型。例如,在ImageNet-1K上,Swin Transformer模型的Top-1准确率为87.4%,而VIT模型的Top-1准确率为85.8%。 二、VIT模型和Swin Transformer模型的联系 尽管VIT模型和Swin Transformer模型在细节上有很大的不同,但它们都是基于Transformer架构的模型,...