该工作提出了一个名为VideoCLIP-XL的视频CLIP模型,旨在提升对视频的长文本描述的理解能力。这一工作构建了一个大规模的长视频描述数据集VILD,并在预训练阶段提出了一种文本相似度引导的主成分匹配方法(TPCM)来优化特征空间的学习。此外,该工作还引入了细节描述排序(DDR)和幻觉描述排序(HDR)两个新任务来进一步提升模...
在CLIP4Clip模型中,作者意识到单个图像远远不足以用于视频文本检索的视频编码。如ClipBERT模型,采用了稀疏采样策略,仅在每个训练步骤中从视频中稀疏地采样一个或几个短片段进行特征提取,虽然可以使端到端预训练成为可能,解决视频文本检索任务,但视频编码器特征提取的效果有待提高。在CLIP4Clip模型中,为了获得视频表示,...
视频检索 任务数量 3 模型数量 31 可用模型 选择基准,对比模型表现 模型名模型规模最佳表现情况技术方法发布时间适配资源 UniAdapter - ON MSR-VTT 2023 SOTA! R@1 49.9 R@5 76.2 R@10 83.0 R@Mean 69.7 MedR 2.0 - 2023-02 PyTorch GPU CPU CUDA 查看项目 CLIP-ViP - ON MSR-VTT 2022 SOTA! Mean ...
另一项研究使用联合编码器与文本进行视频交互,但效率较低,因为每个文本-视频对都需要输入到模型中。在这项工作中,作者实现了细粒度的视频-文本交互,同时通过一种新的借口任务(pretext task),即多项选择问题(MCQ),保持检索的高效性,在该任务中,参数化模块BridgeFormer经过训练,通过借助视频特征回答文本特征构造的“问...
近日,香港大学联合腾讯 ARC Lab,推出了一款视频文本预训练新模型,可通过学习细粒度视频和提取文本特征,高效完成下游检索工作。目前,相关论文以《桥接视频文本检索与多项选择题》(Bridging Video-text Retrieval with Multiple Choice Questions)为主题,已被计算机视觉顶会 CVPR 2022 收录[1]。
视频-字幕交互中,co-attention方式表现出色。引入辅助query-caption后,匹配分数有显著提升。对于离线和在线视频,该方法均优于全局匹配的基准。总的来说,zero-shot captioning在文本-视频检索中发挥着关键作用,通过有效的数据增强、交互和辅助匹配策略,提高了跨模态匹配的性能。
在问答形式中,局部视频文本之间的语义关联可以正确建立。BridgeFormer可以被移除以进行下游检索,只需两个编码器即可提供高效灵活的模型。本文的方法在五个不同实验设置(即Zero-Shot和微调)的数据集中,在流行的文本到视频检索任务上优于最先进的方法,包括HowTo100M(一百万个视频)。
金融界2024年3月11日消息,据国家知识产权局公告,中国电信股份有限公司申请一项名为“视频文本的检索方法、装置及电子设备“,公开号CN117668295A,申请日期为2023年11月。 专利摘要显示,本申请公开了一种视频文本的检索方法、装置及电子设备。其中,该方法包括:通过视频文本检索模型中的文本编码器对输入的待检索文本信息进...
现有的多模态预训练模型大致分为两类:第一类为“双流”法,通过训练独立的编码器来提取视频和文本特征,但这一方法常常忽略局部细节及其间的深层交互;第二类“单流法”则将视频和文本融合为一个联结输入,这种方法虽然能够捕捉到一些局部特征,但在下游检索中效率较低。为了解决这一问题,本研究提出了一个新型的参数化...
1、发明目的:提供一种基于beit-3多模态大模型的视频文本检索方法,以解决现有技术存在的上述问题。 2、技术方案:一种基于beit-3多模态大模型的视频文本检索方法,包括如下步骤: 3、s1、构建beit4clip视频文本检索模型,读取视频和文本,对视频和文本进行预处理,获得视频帧输入表示和文本输入表示; ...