swin-transformer优势

2025-03-09 19:07:56

拼音 [ 拼音 ]

...和ViT的优势!可用于MAE预训练的超简单层次Transformer结构 - 知乎

最近,掩蔽图像建模(MIM)为视觉Transformer 的自监督预训练提供了一种新的方法。高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token,这要求编码器是普通视觉 Transformer(例如 ViT),但是分层视觉 Transformer(例如 Swin Transformer)在形成视觉输入方面具有潜在更好的特性。在本文中,作者提出了...
...兼具Swin和ViT的优势!可用于MAE预训练的超简单层次Transformer...

高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token,这要求编码器是普通视觉 Transformer(例如 ViT),但是分层视觉 Transformer(例如 Swin Transformer)在形成视觉输入方面具有潜在更好的特性。在本文中,作者提出了一种新的分层视觉 Transformer HiViT(Hierarchy ViT 的缩写),它在 MIM 中既具...