在Something-SomethingV2 这种强时序相关数据集上,UniFormerV2 远好于以往基于 ViT 设计的一系列方法,值得注意的是,这些方法往往在 Kinetics 上表现优秀,这也说明了他们实质上并没有真正的对时间进行建模。与以往的 SOTA 方法相比,受助于强大图像预训练的优势,UniFormerV2 只需要在单个视频数据上训练少量 epoch,而以往...