JFT-300M is an internal Google dataset used for training image classification models. Images are labeled using an algorithm that uses complex mixture of raw web signals, connections between web-pages and user feedback. This results in over one billion la
抛开效果提升,对比其他自监督方法,潜在的优势是速度快、内存占用小、超参少,并且能复用NLP预训练框架和经验,方便把ViT扩展到更大规模,从而释放算力和(无标注)数据的威力。在解决被Google大规模内部标注数据集JFT-300M“卡脖子” 的问题上,自监督是唯一选项。
最终,仅仅依赖于ImageNet数据,而无需JFT-300M预训练,所提方案即可取得全面超越ResNet的性能,且参数量与计算量显著降低;与此同时,在轻量化方面,所提方法只需简单减少深度与隐含层维度即可取得优于精心设计的MobileNet系列方案的性能。强烈推荐各位同学研究一下该文。