从表5中可以看到在视频-文本检索任务上,mPLUG-video的效果却不如mPLUG-2,这是因为冻结语言模型的参数会影响mPLUG-video提取跨模态特征,这也表明论文发布的Youku-mPLUG 数据集确实能准确评估视频语言模型的建模能力。 3.2 在zero-shot视频指令理解上的人工评测 为了测试不同模型的视频指令理解能力,论文在50个随机采样的
在此情况下,达摩院推出的Youku-mPLUG数据集,将大大推进中文语境下一系列人工智能任务的发展。与此同时,达摩院也发布了视频文本模型ALPRO和mPLUG-2。并在此基础上进行了各种类型的任务测试,取得了良好的效果。喜欢本文的话,欢迎关注活在信息时代哦:) 发布于 2023-06-15 22:22・陕西...
阿里巴巴研发中文语言数据集 Youku-mPLUG,语料数据来自优酷 品玩6月8日讯,据 arxiv 上的一篇论文显示,达摩院近日为了推动视觉语言预训练以及多模态大语言模型在中文社区的发展,发布了一款视频语言数据集 Youku-mPLUG。这个数据集的所有内容均来自优酷,对其中的安全性、多样性和内容质量有着非常严格的标准。据达摩...
提取视频文件:Youku-mPLUG数据集通常包含视频文件和相应的caption文件。您需要找到一个工具或库来提取视频...
从表5中可以看到在视频-文本检索任务上,mPLUG-video的效果却不如mPLUG-2,这是因为冻结语言模型的参数会影响mPLUG-video提取跨模态特征,这也表明论文发布的Youku-mPLUG 数据集确实能准确评估视频语言模型的建模能力。 3.2 在zero-shot视...
品玩6月8日讯,据 arxiv 上的一篇论文显示,达摩院近日为了推动视觉语言预训练以及多模态大语言模型在中文社区的发展,发布了一款视频语言数据集 Youku-mPLUG。这个数据集的所有内容均来自优酷,对其中的安全性、多样性和内容质量有着非常严格的标准。据达摩院介绍,Youku-m
mPLUG-video 可以准确指出下面视频中的关键角色是“奥特曼”,而其他两个视频大模型明显不能给出准确答案。 YouKu-mPLUG 1.1 现状 虽然视频-语言预训练(video-language pre-training,VLP)取得了显著的进展。但是,与英语 VLP 社区相比(如表格 1 所示),缺乏大规模高质量的公开中文 VLP 数据集阻碍了中文视频-语言预...