模型在完全未标记的数据上进行预训练,少量标注的数据可用于在预训练后从头训练任务特定的预测。我们的研究结果表明,使用冻结主干,我们的顶级V-JEPA模型在Kinetics-400上获得了82.0%,在Something-Something-v2上获得了72.2%,在ImageNet1K上获得77.9%,与以前的领先视频模型竞争或超过了它们。我们相信,这项工作是推进机器...