(1)CNN是通过不断地堆积卷积层来完成对图像从局部信息到全局信息的提取,不断堆积的卷积层慢慢地扩大了感受野直至覆盖整个图像;但是transformer并不假定从局部信息开始,而且一开始就可以拿到全局信息,学习难度更大一些,但transformer学习长依赖的能力更强,另外从ViT的分析来看,前面的layers的“感受野”(论文里是mean atten...
Swin transformer的创新点 | swin transformer模型在继承注意力机制的基础上,结合了CNN卷积神经网络的优点,对特征图进行了4倍,8倍,16倍的下采样(下图左上),这样就可以大大增加实例分割与对象检测的精确度。 但是vision transformer模型一直采用的是16倍的下采样。这样特征图也维持16倍的下采样,针对实例分割任务,精度...