在开篇就提到过,Swin Transformer V2其实也是要做一个足够大的适配多尺度的预训练模型,可以迁移到其他的视觉任务,可以作为一个通用CV模型。 目前视觉预训练大多采用的都是图片分类任务带监督的方法(JFT-3B dataset),因为SwinV2-G做到了30亿参数,监督需要的数据量太大,所以论文中采用了监督和无监督相结合的方法来预...
swin transformer v2 的目标就是得到一个大规模的预训练模型(30亿参数),可以应用到其他的视觉任务(分割、检测、视频动作分类),作为通用CV模型,并取得高精度效果。 基于以上问题,作者提出以下几点: post normalization:在attention layer和MLP layer之后进行layer normalization,并非swin transformer v1中的之前进行归一化。