与Transformer模型相比,ViT模型的主要区别在于输入的数据类型。Transformer模型的输入是序列数据,而ViT模型的输入是图像块。这意味着ViT模型需要使用一些额外的技巧来处理图像数据,例如将图像块重新排列为序列输入,并使用位置编码来处理图像块的位置关系。 此外,ViT模型还使用了预训练的方法来提高模型的性能。在预训练阶段,...
2. 计算复杂度 ViT: ViT 的自注意力计算复杂度与输入图像大小的平方成正比(O(N^2)),当处理高分辨率图像时,计算成本非常高。 Swin Transformer: Swin Transformer的窗口注意力机制将自注意力的计算复杂度降低到与窗口大小线性相关(O(M^2)),而不是整个图像,因此能够更高效地处理大尺寸图像。 3. 全局 vs 局部...