作为通用的视觉转换器骨干,CSWin Transformer在图像分类、目标检测和语义分割任务方面表现出了较强的性能。在类似的FLOPs和模型尺寸下,CSWinTransformer变种显著优于先前的最先进的(SOTA)视觉Transformer。例如,我们的基地变体CSWin-B(在没有任何额外的训练数据或标签的情况下,在 ImageNet-1K精度达到85.4%,53.9盒AP和46...
深入研究了ViT中的多尺度表示学习,并将高分辨率架构与Vision Transformer相结合,实现高性能密集预测视觉任务; 为了实现可扩展的HR-ViT集成,并实现更好的性能和效率权衡,利用了Transformer Block中的冗余,并通过异构分支设计对HRViT的关键部件进行联合优化; HRViT再语义分割任务的ADE20K达到50.20% mIoU,在Cityscapes上达到...