因此,分级 Transformer 的训练速度比普通 Transformer 慢 2 倍。 在本文中,作者首先将层次视觉 Transformer 中的操作分为“单元内操作”、“全局单元间操作”和“局部单元间操作”。作者注意到,平面视觉 Transformer 仅包含“单元内操作”(即 patch 嵌入、层归一化、MLP)和“全局单元内操作”(即全局自注意力),因此...