本小节主要围绕如何提高Transformer模型的表达能力而展开, 视觉Transformer的研究仍处于起步阶段, 一方面可以借鉴CNN的改进思路, 通过类似多尺度等的方案实现对性能的提升, 另一方面由于Transformer基于全局信息的交互, 使其具有不同于CNN的特征提取范式, 从而为引入CNN设计范式进而提升性能提供了可能. CNN的局部性(Locality)...
介绍了典型视觉Transformer的基本原理和结构, 并分析了Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系; 同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展; 并提出了视觉Transformer...