我们创建了ShareGPT4Video数据集,其中包含40,000个由GPT-4V标注的视频和4.8百万个由ShareCaptioner-Video生成的字幕,覆盖了广泛的类别,并详细描述了视频内容。🎬 差异滑动窗口字幕策略(DiffSW) 我们提出了DiffSW策略,通过详细描述关键帧及其变化,生成时间顺序正确且高质量的视频字幕。📊 实验结果 使用ShareGPT4Vide...
ShareGPT4V数据集推出至今已在HuggingFace平台的VQA dataset track上获得了历史第二高的点赞数。 建立在高质量的ShareGPT4V数据集上,图像理解和图像生成社区也都取得一些突破性的进展,例如InternVL-Chat-V1.5与PixArt-Σ等工作。 受ShareGPT4V数据集在图文多模态领域的成功所鼓舞,原作者团队把目光再次投向视频多模态领...
【新智元导读】研究人员利用GPT4-Vision构建了一个大规模高质量图文数据集ShareGPT4V,并在此基础上训练了一个7B模型,在多项多模态榜单上超越了其他同级模型。OpenAI在九月份为ChatGPT添加了图像输入功能,允许用户使用上传一张或多张图像配合进行对话,这一新兴功能的背后是一个被OpenAI称为GPT4-Vision的多模态(...
接下来,研究者们将ShareGPT4V数据集同时在预训练和有监督微调阶段使用,得到了ShareGPT4V-7B模型。 ShareGPT4V-7B在绝大多数多模态基准测试中都取得了非常优异的成果,在7B的模型规模全部取得了最优的性能! 图6 ShareGPT4V-7B在各个多模态基准测试上的表现 总体而言,ShareGPT4V数据集的推出为未来的多模态研究与应用...
【新智元导读】研究人员利用GPT4-Vision构建了一个大规模高质量图文数据集ShareGPT4V,并在此基础上训练了一个7B模型,在多项多模态榜单上超越了其他同级模型。 OpenAI在九月份为ChatGPT添加了图像输入功能,允许用户使用上传一张或多张图像配合进行对话,这一新兴功能的背后是一个被OpenAI称为GPT4-Vision的多模态(vision...
研究者们首先通过等量替换实验,在有监督微调(SFT)阶段充分展示了ShareGPT4V数据集的有效性。 从图中可以看出,ShareGPT4V数据集可以无缝地使得多种架构、多种参数规模的多模态模型的性能得到大幅提升! 图5 使用ShareGPT4V数据集等量替换SFT中图像描述数据后模型效果对比图 接下来,研究者们将ShareGPT4V数据集同时在预...
ShareGPT4V-PT 数据生成 - 用于模态对齐阶段 使用100K 的 ShareGPT4V 数据集 finetune 了一个被称为Share-Captioner的新 caption 模型,然后用他对收集到的 1.2M 图像数据集上生成 caption, 整个生成过程用了大概 44 个A100天。 定性评测 定量评测
Source: Conversation with Bing, 3/19/2024 (1) ShareGPT4V: Improving Large Multi-Modal Models with Better Captions. https://arxiv.org/pdf/2311.12793.pdf. (2) openchat/openchat_sharegpt4_dataset · Datasets at Hugging Face. https://huggingface.co/datasets/openchat/openchat_sharegpt4_dataset. ...
近期,中国科学技术大学与上海AI Lab的研究团队成功开源了ShareGPT4V数据集,这一举措不仅为多模态研究注入了新的活力,更是在性能上超越了同级的7B模型,引领了多模态性能的新飞跃。 一、ShareGPT4V数据集概述 ShareGPT4V是一个包含120万条高质量图像-文本描述的数据集,其数据来源广泛且多样,涵盖了世界知识、对象属性...
研究人员利用GPT4-Vision构建了一个大规模高质量图文数据集ShareGPT4V,并在此基础上训练了一个7B模型,在多项多模态榜单上超越了其他同级模型。 OpenAI在九月份为ChatGPT添加了图像输入功能,允许用户使用上传一张或多张图像配合进行对话,这一新兴功能的背后是一个被OpenAI称为GPT4-Vision的多模态(vision-language)大...