RedCaps 是一个大规模的图像-文本对 (image-text pair) 数据集,数据源自 Reddit,总数达 120 万。这些图片和文本描述了各种各样的物体和场景。 这些数据是从一组人为管理的 subreddit 集中收集的,subreddit 提供了粗略的图像标签,并允许在不标记单个实例的情况下,指导数据集的组合。 密歇根大学的团队发布了该数据...
介绍了第一个包含百万实例的大规模时尚生成数据集,称为FIRST。该数据集包括分层和结构化的文本标注,适用于训练文本控制的时尚生成模型。此外,在该数据集上提出了两个挑战。 初步的定量和定性实验证明,FIRST能够有效提高stable diffusion对时尚的生成质量,并改善文本对生成图像的控制。
RSITMD(遥感图像-文本匹配数据集)是Yuan等人提出的一个细粒度且富有挑战性的遥感数据集,适用于遥感多模态检索任务。相比其他遥感图像-文本配对数据集,它具有描述物体间关系的详细说明。此外,该数据集还包含了关键词属性(每张图像1至5个关键词),可用于基于关键词的遥感文本检索任务。该数据集中共有4,743张图像跨越32...
️数据标注就是数据标注员借助标注工具,对图像、文本、语音、视频等数据进行拉框、描点、转写等操作,产出满足AI机器学习的标注数据集的过程#人工智能数据标注 - 佑麻麻于20220307发布在抖音,已经收获了187个喜欢,来抖音,记录美好生活!
Imagen 是一种文本到图像的扩散模型,具有前所未有的真实感和深度的语言理解。Imagen 建立在大型 Transformer 语言模型在理解文本方面的强大功能之上,并依赖于扩散模型在高保真图像生成方面的优势。 增加Imagen 中语言模型的大小可以大大提高样本保真度和图像-文本对齐不仅仅是增加图像扩散模型的大小。 Imagen 在 COCO 数据...
海康威视取得机器学习模型训练数据集隐私保护专利,能够对样本图像或样本文本的敏感信息或隐私信息进行保护 金融界2023年12月21日消息,据国家知识产权局公告,杭州海康威视数字技术股份有限公司取得一项名为“机器学习模型训练数据集隐私保护方法、装置及设备“,授权公告号CN116821966B,申请日期为2023年8月。专利摘要显示...
MaPa利用了预训练的2D扩散模型来桥接文本描述与实际材质之间的差距,系统能够理解文本中的提示,并根据这些信息合成相应的材质图。这一点尤其重要因为它减少了对大量配对数据的依赖——即那些既有材质图又有对应文本描述的3D网格数据集。 在MaPa首先将3D形状分解成多个分段,然后使用分段控制的扩散模型来生成与各个网格部分...
此外,AI绘画的本质是机器学习,需要借用现有艺术作品的图像数据集进行训练,这些数据无需经过原创作者的许可,便能通过互联网获取。虽然AI绘画不是对已有作品的直接复制,但是它确实从训练它的艺术作品中汲取了“灵感”,原创作者既无法收回他们的作品,也不能阻止AI攫取更多。这也让人们注意到了AI绘画...
他们使用OpenAI的CLIP过滤了LAION-400M数据集中的所有图像和文本,方法是计算文本和图像embedding之间的余弦相似性,并删除相似性低于0.3的图像和文本。0.3的阈值是通过人类评估确定的,似乎是估计语义图像-文本-内容匹配的一个很好的启发式方法。 图像-文本对是从Common Crawl(https://commoncrawl.org/)数据转储中提取的...
专利摘要显示,本申请提供一种机器学习模型训练数据集隐私保护方法、装置及设备,包括:将样本初始图像分割成m个图像块,基于m个图像块生成多个变体图像,每个变体图像包括m个图像块中的部分图像块;基于多个变体图像获取样本初始图像对应的解释模型,基于解释模型确定m个图像块分别对应的权重值;基于m个图像块分别对应的权重值...