论文题目:Swin Transformer V2: Scaling Up Capacity and Resolution 论文地址:https://arxiv.org/pdf/2111.09883.pdf 源代码:https://github.com/microsoft/Swin-Transformer 面临问题: 作者提出了将Swin Transformer缩放到30亿个参数的技术 ,并使其能够使用高达1536×1536分辨率的图像进行训练。在很多方面达到了SOTA。