为了推动视觉语言预训练(Vison-Language Pre-tranining,VLP)和多模态大模型在中文社区的发展,阿里达摩院发布了最大的公共中文视频语言数据集—Youku-mPLUG,Youku-mPLUG 的数据全部来自优酷网站,它包含45个类别一共1000万个用于预训练的视频-文本对,从4亿个原始视频中按照严格的安全性,多样性和质量标准筛选得到。 通过...
达摩院的研究者也发布了在 Youku-mPLUG 数据上预训练的模块化视频 LLM 模型mPLUG-video,延续了 mPLUG 系列的模块化训练思想,把 LLM 升级为一个视频大模型。在 mPLUG 系列工作中,之前的 E2E-VLP 、mPLUG 、mPLUG-2、mPLUG-Owl🦉 分别被 ACL2021 、EMNLP2022、ICML2023 录用,其中 mPLUG 工作在 VQA 榜单...
阿里巴巴研发中文语言数据集 Youku-mPLUG,语料数据来自优酷 品玩6月8日讯,据 arxiv 上的一篇论文显示,达摩院近日为了推动视觉语言预训练以及多模态大语言模型在中文社区的发展,发布了一款视频语言数据集 Youku-mPLUG。这个数据集的所有内容均来自优酷,对其中的安全性、多样性和内容质量有着非常严格的标准。据达摩...
据arxiv上的一篇论文显示,达摩院近日为了推动视觉语言预训练以及多模态大语言模型在中文社区的发展,发布了一款视频语言数据集 Youku-mPLUG。 这个数据集的所有内容均来自优酷,对其中的安全性、多样性和内容质量有着非常严格的标准。据达摩院介绍,Youku-mPLUG中包含了45种不同类型的1000万个视频文本,这些视频文本从4...
在此情况下,达摩院推出的Youku-mPLUG数据集,将大大推进中文语境下一系列人工智能任务的发展。与此同时,达摩院也发布了视频文本模型ALPRO和mPLUG-2。并在此基础上进行了各种类型的任务测试,取得了良好的效果。喜欢本文的话,欢迎关注活在信息时代哦:) 发布于 2023-06-15 22:22・IP 属地陕西...
从表5中可以看到在视频-文本检索任务上,mPLUG-video的效果却不如mPLUG-2,这是因为冻结语言模型的参数会影响mPLUG-video提取跨模态特征,这也表明论文发布的Youku-mPLUG 数据集确实能准确评估视频语言模型的建模能力。 3.2 在zero-shot视频指令理解上的人工评测 ...
从表5中可以看到在视频-文本检索任务上,mPLUG-video的效果却不如mPLUG-2,这是因为冻结语言模型的参数会影响mPLUG-video提取跨模态特征,这也表明论文发布的Youku-mPLUG 数据集确实能准确评估视频语言模型的建模能力。 3.2 在zero-shot视...
Youku-mPLUG数据集用于评估模型理解和生成的能力,包括视频文本检索、视频类别预测和视频字幕生成任务。团队通过随机抽取视频并采用人工标注的方法,确保评估的准确性。在视频类别预测任务中,使用人工标准的方法对标注员进行筛选和复核,以确保标注结果的准确性。在视频字幕生成任务中,聘请了受过良好教育的母语...
阿里巴巴研发中文语言数据集 Youku-mPLUG,语料数据来自优酷 品玩6 月 8 日讯,据 arxiv 上的一篇论文显示,达摩院近日为了推动视觉语言预训练以及多模态大语言模型在中文社区的发展,发布了一款视频语言数据集 Youku-mPLUG。 这个数据集的所有内容均来自优酷,对其中的安全性、多样性和内容质量有着非常严格的标准。据...
品玩6月8日讯,据 arxiv 上的一篇论文显示,达摩院近日为了推动视觉语言预训练以及多模态大语言模型在中文社区的发展,发布了一款视频语言数据集 Youku-mPLUG。这个数据集的所有内容均来自优酷,对其中的安全性、多样性和内容质量有着非常严格的标准。据达摩院介绍,Youku-m