基于此目的,微软亚洲研究院的研究员们在 Swin Transformer 的基础上设计了 Swin Transformer v2.0,它具有30亿参数,是迄今为止最大的稠密视觉模型,可以有效地迁移到需要更高分辨率图像的各种视觉任务中。通过扩展模型容量和分辨率,Swin Transformer v2.0 ...
下面介绍一下Swin Transformer的参数。 1. patch_size:表示一个patch的大小。在Swin Transformer中,输入图像会被分成若干个patch,每个patch会被看做一个序列,然后送入Transformer中进行处理。patch_size越大,每个序列中的元素个数就越少,模型的计算量也就越小。 2. embed_dim:表示每个patch被嵌入到Transformer中的...