受益于 weak-to-strong 算法在 scale up 模型方面的高效性,相比于其他 CLIP 模型,EVA-CLIP-18B 具有更高的训练效率,在 360 块 40G A100上600小时完成训练。 值得注意的是,EVA-CLIP-18B 在仅仅使用 6B 训练样本的情况下,就取得了最先进的性能,而其他先进的CLIP模型通常需要在 10B+ 的样本上进行训
EVA-CLIP-18B采用之前EVA-CLIP类似的训练策略,先使用一个小的CLIP模型进行预训练EVA视觉模型,具体是使用EVA-02- CLIP-E/14+来作为teacher来进行掩码重建,然后用预训练的EVA来初始化EVA-CLIP的视觉图像,再进行图像-文本对比学习训练。这里一个修改是EVA-18B参照LLaMA那样在QKV projections中不使用bias项,同时将Layer...
最佳结果用粗体标出,次佳结果用下划线标出。 Zero-Shot视频分类 视频分类性能:EVA-CLIP-18B在UCF-101和Kinetics系列数据集上取得了优异的表现,尤其是在零样本视频分类方面。 表现优势:EVA-CLIP-18B在零样本视频分类基准上的表现远远超过其他CLIP模型。 视频帧抽样对比:相比于单帧设置,当对每个视频均匀抽样8或16帧...
EVA-CLIP-18B基于公开可用的数据集LAION-2B和COYO-700M进行训练,这些数据集的规模远小于其他最先进CLIP模型所使用的内部数据集(如DFN-5B和WebLI-10B)。 02、实验结果 零样本图像分类 EVA-CLIP在所有27个零样本图像分类基准测试中表现出色。EVA-CLIP-18B在所有27个基准测试中平均达到了80.7%的top-1准确率。这些...
EVA-CLIP-18B沿用了 EVA 系列 weak-to-strong 的视觉模型scale up 策略,实现了视觉模型规模的渐进式扩增。该策略遵循“以小教大,以弱引强”的规模扩增思想。 具体而言,团队首先使用一个较小的 EVA-CLIP-5B 模型作为教师,以掩码图像建模为训练目标,蒸馏出一个较大的 EVA-18B 纯视觉模型。随后,EVA-18B 作为 ...
EVA-CLIP-18B:目前最大、性能最强的开源CLIP模型,具有180亿个参数,刷新图像/视频/3D多个数据集的SOTA!代码刚刚开源! 点击关注 @CVer官方知乎账号,可以第一时间看到最优质、最前沿的CV、AI、3D视觉工作~EVA-C…