Swin transformer 模型 | Swin Transformer是一种新型的Transformer模型,于2021年由微软亚洲研究院提出,其论文题为"等价变形器"(Swin Transformer: Hierarchical Vision Transformer using Shifted Windows)。Swin Transformer在计算机视觉领域取得了很好的效果,尤其在图像分类、目标检测等任务中,超越了现有的很多SOTA方法。
就是做了一个更大版本的 Swin Transformer,有30亿参数而且提出了一系列技术使得 Swin Transformer 可以在1536*1536的图片上做预训练,最后下游任务的效果就非常的好,COCO 都已经被刷到63.1了(去年大家用卷积神经网络的时候还在54、55的准确度上挣扎
在ResNeXt的论文中,作者提出了当时普遍存在的一个问题,如果要提高模型的准确率,往往采取加深网络或者加宽网络的方法。虽然这种方法是有效的,但是随之而来的,是网络设计的难度和计算开销的增加。为了一点精度的提升往往需要付出更大的代价。因此,需要一个更好的策略,在不额外增加计算代价的情况下,提升网络的精度。由此,...
而Swin Transformer开始的时候是使用4倍的下采样,也就是4*4的patch下采样后变成1个像素点。然后还可以做8倍、16倍下采样,可以达到多尺度的特征图的提取效果,它不仅可以用于图像分类,还可以用于目标检测和图像分割。 其实Swin Transformer的很多思想和CNN有异曲同工之处,它利用了视觉信号的好的先验,它的网络架构中...
Swin Transformer 的提出可以说是里程碑式的,在学术界引起了巨大的反响,网络上也有许多讲解的教程,这...
紧接着作者提出了将Transformer从NLP搬到CV面临的关键问题: 一个是尺度问题,图片里包含的信息很多,可能有蚂蚁大小,也可能有高楼大小的不同尺度。 另一个就是图片分辨率(resolution )太大了,如果以像素点为单位,则计算量爆炸,序列长度爆炸,所以之前Vit提出了patch方案,或小窗口+自注意力等,都是为了解决序列长度问题...
2020年,UC Berkeley的Jonathan Ho等人正式提出:DDPM 再之后,2020年6月,UC Berkeley的Jonathan Ho等人意识到宋飏的工作可以改进 Sohl-Dickstein的扩散模型,很快,便通过论文《Denoising Diffusion Probabilistic Models》正式提出对于普通扩散模型的改进版:DDPM(全称即论文名称:Denoising Diffusion Probabilistic Models) DDPM主要...
去年,Transformers开始接手一个又一个具有代表性的视觉基准,包括ImageNet-1K图像级分类基准[22]、COCO区域级目标检测基准[46]、ADE20K像素级语义分割基准[46、83]、Kinetics-400视频动作分类基准[2]等,已经提出了许多视觉transformer变体,以在相对较小的范围内提高精度[14、21、34、42、63、68、71、75、77、...
看到这里你觉得是不是有点问题,我们在上一篇博客中提到,transformer相对于CNN来说可以关注全局信息,这就是transformer相对于cnn的一个优势,但这里进行窗口内的多头注意力计算,这是不是违背了使用transformer的初衷? 但很幸运的是,swin transformer提出的滑动窗口就是为了解决这个问题。