- V-JEPA通过预测视频中缺失或遮挡的部分来学习,在内部特征空间中进行预测,提高训练和样本效率。 - 这些模型在无标签数据上进行了预训练,之后可以使用少量标记数据在其上训练特定任务的预测头部。 - 使用冻结的骨干网络,顶级V-JEPA模型在Kinetics-400上达到82.0%,在Something-Something-v2上达到72.2%,在ImageNet1K...