通常来说,图片中的文本能够比图片中其他内容提供更加丰富的信息。因此,图像文本识别能够将图像中的文本区域转化成计算机可以读取和编辑的符号,打通了从图像到文本再到信息的通路。 随着计算机算力的提升,基于深度学习方法的本文识别技术逐渐成为主流,而深度学习中数据集的获取是重中之重。本脚本实现读取语料集中的文本内...
RSITMD(遥感图像-文本匹配数据集)是Yuan等人提出的一个细粒度且富有挑战性的遥感数据集,适用于遥感多模态检索任务。相比其他遥感图像-文本配对数据集,它具有描述物体间关系的详细说明。此外,该数据集还包含了关键词属性(每张图像1至5个关键词),可用于基于关键词的遥感文本检索任务。该数据集中共有4,743张图像跨越32...
图像中的文本识别近几年来备受瞩目。通常来说,图片中的文本能够比图片中其他内容提供更加丰富的信息。因此,图像文本识别能够将图像中的文本区域转化成计算机可以读取和编辑的符号,打通了从图像到文本再到信息的通路。 随着计算机算力的提升,基于深度学习方法的本文识别技术逐渐成为主流,而深度学习中数据集的获取是重中之...
我们期望数据集旨在促进对人脸相关任务的研究。该数据集中包含 1500 万对人脸图像及其对应的自然语言描述,是迄今为止最大的人脸图像-文本数据集。且图像质量、文本自然度、文本复杂度和文本-图像相关性进行了全面分析,综合性最好。为了验证该数据集的有效性,我们首先训练了一个人脸语言-图像预训练模型(类似于 CLIP),...
RedCaps 是一个大规模的图像-文本对 (image-text pair) 数据集,数据源自 Reddit,总数达 120 万。这些图片和文本描述了各种各样的物体和场景。 这些数据是从一组人为管理的 subreddit 集中收集的,subreddit 提供了粗略的图像标签,并允许在不标记单个实例的情况下,指导数据集的组合。 密歇根大学的团队发布了该数据...
本篇将简述文本生成图像的数据集,汇总介绍数据集的内容、特点、细节和下载方式等。 一、Caltech-UCSD Bird(CUB-200-2011) 1.1、介绍 CUB-200-2011数据集是CUB-200-2011是CUB-200的扩展版本,这是一个具有挑战性的200种鸟类数据集。扩展版本大致将每个类别的图像数量增加了一倍,并添加了新的零件定位注释。所有图像...
医疗图像-文本数据集 K KeepCalm47 CC BY-NC-SA 4.0 医疗自然语言处理计算机视觉 0 11 2023-02-07 详情 相关项目 评论(0) 创建项目 文件列表 VQA_data.zip VQA_data.zip (15552.07M) 下载 File Name Size Update Time VQA_data/pvqa.zip -1 2023-01-31 13:02:25 __MACOSX/VQA_data/._pvqa.zip...
FSNS数据集是一种常用的用于文本识别任务的数据集,包含了大量的图像和对应的文本标注。要读取FSNS数据集中的图像和文本,可以按照以下步骤进行: 1. 下载数据集:首先,需要从官方网站或相关资源中下...
在多模态大模型(Large Multi-modal Models)领域,高效的模态对齐(modality alignment)是至关重要的,但现有工作中模态对齐的效果却往往受制于缺少大规模的高质量的「图像-文本」数据。 为了解决这一瓶颈,近日,中科大和上海AI Lab的研究者们最近推出了具有开创性意义的大型图文数据集ShareGPT4V。
OmniCorpus由上海人工智能实验室联合多所知名高校及研究机构共同构建,是迄今为止最大的多模态数据集。该数据集包含了86亿张图像和1696亿个文本Token,支持中英双语。与现有的数据集相比,其在以下方面具有显著优势:1)更大的数据规模:与之前最大的多模态数据集LAION-5B相比,OmniCorpus的数据集在图像方面大了1.7倍,在文...