关键是删除不必要的“局部单元间操作”,产生出结构简单的分层视觉 Transformer ,其中 mask-units 可以像普通视觉 Transformer 一样序列化。实验结果研究表明,HiViT 在全监督、自监督和迁移学习方面具有优势。特别是,在 ImageNet-1K 上运行 MAE 时,HiViT-B 比 ViT-B 的准确度提高了 0.6%,比 Swin-B 的速度提高...
高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token,这要求编码器是普通视觉 Transformer(例如 ViT),但是分层视觉 Transformer(例如 Swin Transformer)在形成视觉输入方面具有潜在更好的特性。 在本文中,作者提出了一种新的分层视觉 Transformer HiViT(Hierarchy ViT 的缩写),它在 MIM 中既具...