金琴老师对VTT任务的现状进行了完整的回顾和分析,并创新地提出了基于隐含主题指导的视频内容描述生成模型,并根据视频的不同分类,通过融合(Ensemble)和排序(Reranking)等方法综合描述模型,在MSR-VTT数据集上取得了优秀的效果,并对模型的通用泛化能力和“距离人类水准的距离”进行了分析,为今后该任务的发展和需要...
金琴老师对VTT任务的现状进行了完整的回顾和分析,并创新地提出了基于隐含主题指导的视频内容描述生成模型,并根据视频的不同分类,通过融合(Ensemble)和排序(Reranking)等方法综合描述模型,在MSR-VTT数据集上取得了优秀的效果,并对模型的通用泛化能力和“距离人类水准的距离”进行了分析,为今后该任务的发展和需要解决的...
我之前整理了一部分视频数据集,包括MSRVTT、MSVD、ActivityNet、DiDeMo和LSMDC(LSMDC由于license限制我没...
我之前整理了一部分视频数据集,包括MSRVTT、MSVD、ActivityNet、DiDeMo和LSMDC(LSMDC由于license限制我没...
MSR-Action3D数据集 MSR-Action3D数据集包含20个动作:高臂波、水平臂波、锤、手抓、向前冲、高抛、画x、画勾、画圆、手拍、双手波、侧拳、弯、前踢、侧踢、慢跑、网球挥杆、网球发球、高尔夫挥杆、拾取、拾取、扔。有10个实验对象,每个实验对象要做2到3次动作。总共有567个深度图序列。
对MSR数据集的json文件split划分为train/val/test,train: video0 : video6512 (6513);val: video6513 : video7009 (497);test: video7010 : video9999 (2990) 。以及相应的读取写入json文件的python代码点赞(0) 踩踩(0) 反馈 所需:30 积分 电信网络下载 ...
Microsoft Multimedia Challenge 刚
我之前整理了一部分视频数据集,包括MSRVTT、MSVD、ActivityNet、DiDeMo和LSMDC(LSMDC由于license限制我没办法提供下载链接),我把他们整理到https://github.com/jpthu17/EMCL里了,有需要可以下载。有
2022 年 4 月,腾讯对外正式宣布,腾讯“混元”AI 大模型在MSR-VTT,MSVD,LSMDC,DiDeMo 和 ActivityNet 五大跨模态视频检索数据集榜单中先后取得第一名的成绩,实现了该领域的大满贯。 腾讯大模型相关受益标的:博思软件、世纪华通、掌趣科技、常山北明、四维图新、泛微网络、长亮科技等。
MSR-VTT-1kA HunYuan_tvr Video Retrieval MSR-VTT GRAM Zero-Shot Video Retrieval MSR-VTT InternVideo2-6B Video Captioning MSR-VTT mPLUG-2 Text-to-Video Generation MSR-VTT Snap Video Show all 9 benchmarks Papers Dataset Loaders Edit