它在ImageNet-1k上仅用21M个参数就达到了84.8%的TOP-1准确率,与SwinB在ImageNet-21k上的预训练相当,而使用的参数少了4.2倍。此外,提高图像分辨率,TinyViT可以达到86.5%的准确率,略好于Swin-L,而只使用11%的参数。最后,作者展示了TinyViT在各种下游任务上的良好迁移能力。1. 论文和代码地址 TinyViT:...
1. 论文和代码地址 TinyViT: Fast Pretraining Distillation for Small Vision Transformers 论文地址:arxiv.org/abs/2207.1066 [1] 代码地址:github.com/microsoft/Cr [2] 2. Motivation Transformer已经在计算机视觉领域掀起了一场风暴,并在研究和实践中越来越受欢迎。视觉Transformer(VIT)的最新趋势之一是继续增加模...
最后,作者展示了TinyViT在各种下游任务上的良好迁移能力。 1. 论文和代码地址 TinyViT: Fast Pretraining Distillation for Small Vision Transformers 论文地址:https://arxiv.org/abs/2207.10666 代码地址:https://github.com/microsoft/Cream/tree/main/TinyViT 2. Motivation Transformer已经在计算机视觉领域掀起了一...
视觉Transformer(VIT)由于其卓越的建模能力,近年来在计算机视觉领域引起了极大的关注。然而,大多数流行的VIT模型都受到大量参数的限制,限制了它们在资源有...