动作识别数据集作为视频数据集的一个重要子集,专注于人类动作的识别与分类任务。它包含了丰富多样的人类动作视频样本,涵盖了从简单的肢体动作(如行走、跑步、挥手等)到复杂的行为活动(如体育比赛中的各种动作、工业生产中的操作流程、社交互动中的行为表现等),并且针对每个动作视频都进行了精确的动作类别标注,有些数据...
为了进一步扩大数据集规模,以及便于开源社区在自有数据上的使用,在ShareGPT4Video数据集的基础上,研究者们进一步设计开发了ShareCaptioner-Video,一个能够有效地为任意视频生成高质量描述的多功能多模态大模型。ShareCaptioner-Video是一款四合一的特殊视频描述模型,具有滑动窗口生成视频描述、快速生成视频描述、视频片段对...
简介:MSRVTT-QA 数据集基于 MSR-Video-to-Text(MSRVTT)数据集构建,视频内容涵盖了日常生活场景、体育、新闻等多个领域。问题主要涉及视频中的人物、物体、动作和事件等方面,是视频问答研究领域中较为早期且具有代表性的数据集。数据集中的视频时长较短,平均在 10-20 秒左右,这使得模型在处理相对简洁的视频内容时...
为了进一步扩大数据集规模,以及便于开源社区在自有数据上的使用,在ShareGPT4Video数据集的基础上,研究者们进一步设计开发了ShareCaptioner-Video,一个能够有效地为任意视频生成高质量描述的多功能多模态大模型。 ShareCaptioner-Video是一款四合一的特殊视频描述模型,具有滑动窗口生成视频描述、快速生成视频描述、视频片段对应...
横屏与竖屏视频的不同,说明竖屏视频是一种不同于以往数据的新视频格式,有着不同的数据特性。为了进一步推动领域研究,团队提出了数据集 PortraitMode-400,通过自底向上的方式综合大量的热门搜索词,人工筛查和提取得到 400 个包含显著动作内容的类别集合,涵盖从饮食运动到休闲娱乐等等领域。每个类别包含至少 100 ...
中科大、上海AI实验室等组成的ShareGPT4V团队,推出了新的视频数据集,登顶HuggingFace排行榜! 数据集涵盖了3000小时的高质量视频数据,而且还配有高质量的文字描述。 利用这一数据集,团队重新测试了北大的Open-Sora-Plan,发现视频生成质量获得了显著提升。
OpenVid-1M数据集 OpenVid-1M是一个精确的高质量数据集,包含超过100万个视频片段,每个视频分辨率至少为512x512,并附有详细的描述性字幕。该数据集的特点主要可以概括为: 1、小而美:相比于之前的同类数据集,WebVid-10M包含带水印的低质量视频,Panda-70M包含许多静态、闪烁、低清晰度的视频以及短字幕。而OpenVid-...
【新智元导读】视频语言数据集的规模又刷新记录了!来自MSRA的8位华人联合发布史上最大的视频语言数据集HD-VILA-100M,也是首个高分辨率大规模数据集!文中还提出一个训练模型,基于这个数据训练的模型性能直接提升53.6%!回想几年前网上信息大部分还是静态的,例如图片、小说。但随着各大视频网站和短视频的兴起,...
微播公司基于数据集合形成的竞争性利益,属于反不正当竞争法保护的合法权益。创锐公司未经许可,直接抓取搬运抖音平台数据集合中的5万余条短视频文件、1万多个用户信息、127条用户评论内容,并在刷宝App进行展示和传播。创锐公司的行为构成不正当竞争。因此,请求法院判令创锐公司刊登声明、消除影响,赔偿微播公司经济损失...
视觉数据编码顶级国际论坛之一的 PCS 2022 论文入选结果公布! 本次,腾讯多媒体实验室共有5篇论文入选,内容含视频压缩、视频数据集、神经网络压缩图像/视频压缩、高维媒体压缩等多个领域。 以下为入选论文简介: 用于屏幕内容编码的开放视频数据集 An Open Video Dataset for Screen Content Coding ...