为了探索教师模型和学生模型之间参数数量差异的影响,作者比较了从不同规模的教师模型中蒸馏的CLIP-CID ViT-B/32的性能。实验结果如表7所示,作者发现较大的教师模型,如OPENCLIP ViT-bigG/14,对线性 Prob 和零样本分类产生了更好的学生性能。 PCA成分的可视化。作者呈现了OPENCLIP ViT-B/32和作者的CLIP-CID ViT...
为了探索教师模型和学生模型之间参数数量差异的影响,作者比较了从不同规模的教师模型中蒸馏的CLIP-CID ViT-B/32的性能。实验结果如表7所示,作者发现较大的教师模型,如OPENCLIP ViT-bigG/14,对线性 Prob 和零样本分类产生了更好的学生性能。 PCA成分的可视化。作者呈现了OPENCLIP ViT-B/32和作者的CLIP-CID ViT...
MetaCLIP 在 400M 训练数据上达到 ViT-B 70.8% 的零样本 ImageNet 分类精度;使用 1B 训练数据上达到 72.4%;在 2.5B 训练数据上使用 ViT-bigG 模型达到 82.1%,而整个模型和训练参数并未进行任何更改(比如学习率或批样本量)。消融...
MetaCLIP 在 400M 训练数据上达到 ViT-B 70.8% 的零样本 ImageNet 分类精度;使用 1B 训练数据上达到 72.4%;在 2.5B 训练数据上使用 ViT-bigG 模型达到 82.1%,而整个模型和训练参数并未进行任何更改(比如学习率或批样本量)。 消融实验表明:字符串匹配(MetaCLIP w/o bal. (400M))和平衡分布(MetaCLIP(400...
相反的是,MetaCLIP数据算法同时输出训练数据分布。这使得训练数据更加透明,以方便调试模型。MetaCLIP在400M训练数据上达到ViT-B 70.8%的零样本ImageNet分类精度;使用1B训练数据上达到72.4%;在2.5B训练数据上使用ViT-bigG模型达到82.1%,而整个模型和训练参数并未进行任何更改(比如学习率或批样本量)。
此外,集成可以是一种更参数高效的途径来获得更强的模型。例如,两个ViT-L-14预训练CLIP模型的集成比具有ViT-bigG-14图像编码器的模型具有更少的参数,但具有相同的ImageNet-val性能(80.1%)。 总的来说,如果作者有一组预训练的CLIP模型(例如,像OpenCLIP中的那样),作者可以使用这种方法将状态与效果推向最先进,并...
相反的是,MetaCLIP数据算法同时输出训练数据分布。这使得训练数据更加透明,以方便调试模型。MetaCLIP在400M训练数据上达到ViT-B 70.8%的零样本ImageNet分类精度;使用1B训练数据上达到72.4%;在2.5B训练数据上使用ViT-bigG模型达到82.1%,而整个模型和训练参数并未进行任何更改(比如学习率或批样本量)。
目前OpenCLIP G/14模型已经在hugging face上开源:https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k。你可以直接基于openclip库来使用它: importopen_clipimporttorchfromPILimportImagemodel,preprocess_train,preprocess_val=open_clip.create_model_and_transforms('hf-hub:laion/CLIP-ViT-bigG...
相反的是,MetaCLIP数据算法同时输出训练数据分布。这使得训练数据更加透明,以方便调试模型。MetaCLIP在400M训练数据上达到ViT-B 70.8%的零样本ImageNet分类精度;使用1B训练数据上达到72.4%;在2.5B训练数据上使用ViT-bigG模型达到82.1%,而整个模型和训练参数并未进行任何更改(比如学习率或批样本量)。
模型地址:https://huggingface.co/laion/CLIP-ViT-bigG-14-laion2B-39B-b160k OpenCLIP模型在各个数据集上具体的性能如下表所示。 Zero-shot能力 一般来说,计算机视觉(CV)模型在各个任务上的sota性能都是基于特定领域的训练数据,无法泛化到其他领域或任务中,导致对视觉世界的通用属性理解有限。泛化问题对于那些缺...