特别是在CVPR 2021中,Vision Transformer(ViT)的出现引起了广泛的关注。然而,ViT中使用的密集注意力机制会导致内存和计算成本过高,限制了其在实际应用中的使用。为了解决这个问题,CVPR 2022中的一篇论文提出了带有可变形注意力的视觉Transformer模型,为视觉任务提供了一种新的解决方案。 一、模型设计 该模型的设计思想是...