通过MAE预训练,可以在ImageNet-1K上训练像ViT Large/-Large这样的data-hungry模型,从而提高泛化性能。使用vanilla ViT-Huge模型,在ImageNet-1K上进行微调时,实现了87.8%的Top-1精度。这比以前所有只使用ImageNet-1K数据的结果都要好。 作者还评估了迁移到目标检测、实例分割和语义分割的结果。在这些任务中,MAE的预...
通过MAE预训练,可以在ImageNet-1K上训练像ViT Large/-Large这样的data-hungry模型,从而提高泛化性能。使用vanilla ViT-Huge模型,在ImageNet-1K上进行微调时,实现了87.8%的Top-1精度。 这比以前所有只使用ImageNet-1K数据的结果都要好。作者还评估了迁移到目标检测、实例分割和语义分割的结果。在这些任务中,MAE的预...
通过MAE预训练,可以在ImageNet-1K上训练像ViT Large/-Large这样的data-hungry模型,从而提高泛化性能。使用vanilla ViT-Huge模型,在ImageNet-1K上进行微调时,实现了87.8%的Top-1精度。 这比以前所有只使用ImageNet-1K数据的结果都要好...
通过MAE预训练,可以在ImageNet-1K上训练像ViT Large/-Large这样的data-hungry模型,从而提高泛化性能。使用vanilla ViT-Huge模型,在ImageNet-1K上进行微调时,实现了87.8%的Top-1精度。这比以前所有只使用ImageNet-1K数据的结果都要好。作者还评估了迁移到目标检测、实例分割和语义分割的结果。在这些任务中,MAE的预...
本文的可扩展方法使得学习具有良好通用性的高容量模型:例如,在仅使用ImageNet-1K数据时,ViT-Huge模型的Top-1精确度为87.8%。此外,下游任务中的迁移性能优于有监督的预训练。 ▊1. 论文和代码地址 Masked Autoencoders Are Scalable Vision Learners 论文地址:https:///abs/2111.06377 ...
本文的可扩展方法使得学习具有良好通用性的高容量模型:例如,在仅使用ImageNet-1K数据时,ViT-Huge模型的Top-1精确度为87.8%。此外,下游任务中的迁移性能优于有监督的预训练。 ▊1. 论文和代码地址 Masked Autoencoders Are Scalable Vision Learners 论文地址:https://arxiv.org/abs/2111.06377 ...
本文的可扩展方法使得学习具有良好通用性的高容量模型:例如,在仅使用ImageNet-1K数据时,ViT-Huge模型的Top-1精确度为87.8%。此外,下游任务中的迁移性能优于有监督的预训练。 ▊1. 论文和代码地址 Masked Autoencoders Are Scalable Vision Learners 论文地址:https://arxiv.org/abs/2111.06377 ...