最近,掩蔽图像建模(MIM)为视觉Transformer 的自监督预训练提供了一种新的方法。高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token,这要求编码器是普通视觉 Transformer(例如 ViT),但是分层视觉 Transformer(例如 Swin Transformer)在形成视觉输入方面具有潜在更好的特性。 在本文中,作者提出了...
高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token,这要求编码器是普通视觉 Transformer(例如 ViT),但是分层视觉 Transformer(例如 Swin Transformer)在形成视觉输入方面具有潜在更好的特性。 在本文中,作者提出了一种新的分层视觉 Transformer HiViT(Hierarchy ViT 的缩写),它在 MIM 中既具...