它们都是基于Transformer架构的模型,但在细节上有很大的不同。一、VIT模型和Swin Transformer模型的区别1. 图像分块方式不同VIT模型将图像分成固定大小的小块,每个小块都被视为一个“图像片段”,并通过Transformer编码器进行处理。而Swin Transformer模型采用了一种新的分块方式,称为“局部窗口注意力”,它将图像分成...