Git-10M:该数据集包含1000万图像-文本对,是目前最大规模的遥感图像-文本数据集,其规模是之前最大数据集的5倍。数据集中的图像涵盖了城市、森林、山脉等多种地理场景,并包含图像分辨率和地理位置等重要元数据。 数据集构建: 数据集的图像来源于多个公开数据集(如Million-AID、GeoPile等)以及从Google Earth手动收集的...
RSITMD(遥感图像-文本匹配数据集)是Yuan等人提出的一个细粒度且富有挑战性的遥感数据集,适用于遥感多模态检索任务。相比其他遥感图像-文本配对数据集,它具有描述物体间关系的详细说明。此外,该数据集还包含了关键词属性(每张图像1至5个关键词),可用于基于关键词的遥感文本检索任务。该数据集中共有4,743张图像跨越32...
Git-10M:该数据集包含1000万图像-文本对,是目前最大规模的遥感图像-文本数据集,其规模是之前最大数据集的5倍。数据集中的图像涵盖了城市、森林、山脉等多种地理场景,并包含图像分辨率和地理位置等重要元数据。 数据集构建: 数据集的图像来源于多个公开数据集(如Million-AID、GeoPile等)以及从Google Earth手动收集的...
RedCaps 是一个大规模的图像-文本对 (image-text pair) 数据集,数据源自 Reddit,总数达 120 万。这些图片和文本描述了各种各样的物体和场景。 这些数据是从一组人为管理的 subreddit 集中收集的,subreddit 提供了粗略的图像标签,并允许在不标记单个实例的情况下,指导数据集的组合。 密歇根大学的团队发布了该数据...
TextCraftor是一种创新的文本编码器微调技术,能够显著提升文本到图像生成模型的性能。 通过奖励函数优化,TextCraftor是一种创新的文本编码器微调技术改善了图像质量与文本对齐,无需额外数据集。从演示图片来看效果相当好。 TextCraftor的提出为文本到图像生成领域带来了新的视角。其在图像编辑、视频合成等领域的应用前景广阔...
谷歌最近推出了一个标志性的突破,发布了名为WebLI-100B的数据集,包含了前所未有的1000亿图像-文本对。这一规模比以往的记录扩大了十倍,开启了视觉语言模型(VLMs)研究的新纪元。这一创举不仅彰显了数据扩展法律(Scaling Law)的巨大潜力,还为多模态AI模型的发展奠定了坚实的基础。
在人工智能领域,数据规模的重要性不言而喻。近日,谷歌发布了史上最大规模的视觉语言数据集——WebLI-100B,它由1000亿对图像和文本组成,打破了之前的纪录,扩大了10倍。这一突破让人们对数据扩展的潜力有了新的认识,也为多模态模型的构建提供了更为丰富的基础。
海康威视取得机器学习模型训练数据集隐私保护专利,能够对样本图像或样本文本的敏感信息或隐私信息进行保护 金融界2023年12月21日消息,据国家知识产权局公告,杭州海康威视数字技术股份有限公司取得一项名为“机器学习模型训练数据集隐私保护方法、装置及设备“,授权公告号CN116821966B,申请日期为2023年8月。专利摘要显示...
苹果发布了Matryoshka扩散模型,这是一个用于生成高质量图像和视频的端到端框架。扩散模型是生成高质量图像和视频的事实标准方法,但由于计算和优化挑战,学习高维模型仍然是一项艰巨的任务。我们提出了Matryoshka扩散模型(MDM),这是一个用于高分辨率图像和视频合成的框架。我们提出了一种扩散过程,联合对多个分辨率的输入进行...