因此,收集大规模的视频-文本对齐数据对用于视频预训练存在较高的难度。目前,大部分研究者所使用的公开预训练数据集主要包括HowTo100M[1]和WebVid[2]数据集,此外,由于视频和图片特征的相似性,也有非常多工作利用图片-文本预训练数据集进行训练,本节主要对视频-文本预训练中...
本文提出了一个全新的借口任务用于视频文本预训练,叫做多项选择题(MCQ)。通过训练辅助的BridgeFormer根据视频内容回答文本构成的选择题,来学习细粒度的视频和文本特征,并实现下游高效的检索。该研究已被 CVPR 2022 收录为 Oral。用于文本视频检索的多模态预训练工作主要采用两类方法:“双流”法训练两个单独的编码...
1) 采样文本clip(如果先对视频clip进行采样,可能没有相应的文本,无时间对齐文本的视频clip不会作为正样本);(i) sample a text clip (because sampling a video clip first may not have nearby corresponding text); 2)在文本clip的边界内(boundrary)采样一个时间戳,作为视频clip的中心;(ii) sample a timesta...
在本文中,我们提出了一个视频-文本预训练方法——STOA-VLP,通过显式地建模时序相关的实体轨迹和多个时空动作特征来更好地应对视频中实体的动态变化和实体交互。此外,我们设计了两个辅助预训练任务:实体-文本对齐(objecttext alignment, OTA)任务和动作集合预测(Action Set Prediction, ASP)任务以在与训练阶段利用文本...
本文提出了一个全新的借口任务用于视频文本预训练,叫做多项选择题(MCQ)。通过训练辅助的BridgeFormer根据视频内容回答文本构成的选择题,来学习细粒度的视频和文本特征,并实现下游高效的检索。该研究已被 CVPR 2022 收录为 Oral。 用于文本视频检索的多模态预训练工作主要采用两类方法:“双流”法训练两个单独的编码器来...
用于文本视频检索的多模态预训练工作主要采用两类方法:“双流”法训练两个单独的编码器来约束视频级别和语句级别的特征,忽略了各自模态的局部特征和模态间的交互;“单流”法把视频和文本联结作为联合编码器的输入来进行模态间的融合,导致下游检索非常低效。
这促使这篇工作思考并最终提出了一个真正统一的视觉-语言基础模型OmniVL以同时支持图像-文本和视频-文本的预训练以及相应的下游任务,包括视觉任务(如图像分类、视频动作识别)、跨模态对齐任务(如图像/视频-文本检索)以及多模态理解和生成任务(如图像/视频问答、字幕自动生成等)。OmniVL第一次探索出了图像和视频任务双...
SimVTP(Simple Video-Text Pretraining)是一个简单的视频-文本预训练框架,主要利用了带掩码的自动编码器。它随机屏蔽输入视频的时空管道和输入文本的单词,然后将它们输入统一的自动编码器以重建丢失的像素和单词。SimVTP 能够更高效地利用数据。仅用 10% 的 WebVid-2M 数据进行预训练,它就能在 MSRVTT 数据集上...
1. 拉近视频和文本正样本对特征间的距离,并拉远负样本对特征间的距离(一个视频和它对应的文本描述被视为正样本对,否则就是负样本对)。2. 训练 BridgeFormer 回答名词问题,也就是拉近 BridgeFormer 输出的名词回答特征和 TextFormer 输出的正确答案的名词特征间的距离,并拉远名词回答特征和其他名词特征间的距离。
第二,预训练模型中广泛存在的视频-文本对齐任务和其它基于掩码的重建任务存在冲突;第三,大规模、高...