视频检索模型

2025-01-27 14:47:53

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

【AAAI-23】基于多模态标签聚合的视频检索模型TABLE - 知乎

尤其是在搜索中,视频通常包含标题、封面图、视频帧、音频等多种模态信息,因此视频检索模型引入了多模态特征,以刻画 query 与视频在多个模态上的相关程度,并进行综合排序,提升视频搜索结果的整体满意度。在学术界,目前视频检索有两种主流模型: 基于CLIP 图文预训练的模型:代表工作为 CLIP4Clip,优点是成功地将图文预...
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA_腾讯...

基于CLIP 图文预训练的模型:代表工作为 CLIP4Clip,优点是成功地将图文预训练的知识迁移到视频 - 文本检索的任务中,不足是缺乏对视频其他模态信息的利用; 基于多模态信息编码的模型,代表工作为 MMT(Multi-Modal Transformer),优点是使用 transformer 将视频的多种模态信息(物体、动作、场景、音频等)进行联合编码;不足...
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA...

基于CLIP 图文预训练的模型:代表工作为 CLIP4Clip,优点是成功地将图文预训练的知识迁移到视频 - 文本检索的任务中,不足是缺乏对视频其他模态信息的利用; 基于多模态信息编码的模型,代表工作为 MMT(Multi-Modal Transformer),优点是使用 transformer 将视频的多种模态信息(物体、动作、场景、音频等)进行联合编码;不足...
【EMNLP2024】面向长文本的文视频表征学习与检索模型 VideoCLIP-XL...

该工作提出了一个名为VideoCLIP-XL的视频CLIP模型,旨在提升对视频的长文本描述的理解能力。这一工作构建了一个大规模的长视频描述数据集VILD,并在预训练阶段提出了一种文本相似度引导的主成分匹配方法(TPCM)来优化特征空间的学习。此外,该工作还引入了细节描述排序(DDR)和幻觉描述排序(HDR)两个新任务来进一步提升模...
AAAI 2023 | 基于多模态标签聚合的视频检索模型TABLE,多项SOTA...

在QQ 浏览器搜索中,视频通常包含标题、封面图、视频帧、音频等多种模态信息,因此视频检索模型引入了多模态特征,以刻画 query 与视频在多个模态上的相关程度,并进行综合排序,提升视频搜索结果的整体满意度。…
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA

近年来,互联网短小视频内容的爆发式增长,对视频 - 文本检索(Video-Text Retrieval)的能力提出了更高的要求。在 QQ 浏览器搜索中,视频通常包含标题、封面图、视频帧、音频等多种模态信息,因此视频检索模型引入了多模态特征,以刻画 query 与视频在多个模态上的相关程度,并进行综合排序,提升视频搜索结果的整体满意度。
AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA(2...

随着CLIP 等大规模预训练模型的提出,视频检索模型的性能也实现了较大的突破。因此,在进行性能对比时,我们将现有方法分为 CLIP-based 和 NO-CLIP 的方法,可以看出,CLIP-based 的方法通常都会有更好的性能。例如,MMT 在 text-to-video 任务上的 R@1 仅为 26.6,而 CLIP4Clip 可以达到 43.1。
一文深度解读多模态大模型视频检索技术的实现与使用 - 阿里云CloudImagin...

当视频检索叠上大模型Buff。万乐乐|技术作者视频检索,俗称“找片儿”,即通过输入一段文本,找出最符合该文本描述的视频。随着视频社会化趋势以及各类视频平台的快速兴起与发展,「视频检索」越来越成为用户和视频平台实现高效查找视频、定位目标内容的新需求。对于个
一文深度解读多模态大模型视频检索技术的实现与使用

当视频检索叠上大模型Buff。万乐乐|技术作者视频检索,俗称“找片儿”,即通过输入一段文本,找出最符合该文本描述的视频。随着视频社会化趋势以及各类视频平台的快速兴起与发展,「视频检索」越来越成为用户和视频平台实现高效查找视频、定位目标内容的新需求。
一文深度解读多模态大模型视频检索技术的实现与使用-阿里云开发者...

当视频检索叠上大模型Buff。万乐乐|技术作者视频检索,俗称“找片儿”,即通过输入一段文本,找出最符合该文本描述的视频。随着视频社会化趋势以及各类视频平台的快速兴起与发展,「视频检索」越来越成为用户和视频平台实现高效查找视频、定位目标内容的新需求。

快搜汉语词典

视频检索模型

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

【AAAI-23】基于多模态标签聚合的视频检索模型TABLE - 知乎

AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA_腾讯...

AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA...

【EMNLP2024】面向长文本的文视频表征学习与检索模型 VideoCLIP-XL...

AAAI 2023 | 基于多模态标签聚合的视频检索模型TABLE,多项SOTA...

AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA

AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTA(2...

一文深度解读多模态大模型视频检索技术的实现与使用 - 阿里云CloudImagin...

一文深度解读多模态大模型视频检索技术的实现与使用

一文深度解读多模态大模型视频检索技术的实现与使用-阿里云开发者...

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索