因此这一领域的研究,只集中在少数几个机构中,2021年公布的LAION-400M[1]是当时最大的公开图文数据集,本次发布的LAION-5B[2]是LAION-400M的14倍,足够规模的公开数据使得该领域的研究更多元化,能够让更多的研究者参与到这一领域的研究中。
https://laion.ai/blog/laion-5b/ LAION-5B由58.5亿个图像文本组合组成,通过CLIP过滤的图像分类模型,其中23亿是图像-英文文本对,22亿是图像,超过100个是非英语文本对,其余10亿对是不限于特定语言的图像和文本对,例如名称。在发布时发表的一份声明中,LAION研究团队表示,虽然在数十亿个图像文本对上训练...
五、 LAION-5B媒体图片下载 在OpenDataLab网站下载到parquet文件后,可以根据这份元数据下载对应的图片文件。 现在,我们也开源了LAION-5B图片下载代码,github开源地址如下: https://github.com/opendatalab/laion5b-downloader 耗时25天,目前下载的图片总量为5065377962张(因url链接和网站原因,部分图片无法下载),总存储...
LAION 5B是一个包含 58.5 亿高质量图像-文本对的开源数据集,其中包含探索和训练工具,可为 DALL-E 架构提供支持,并为广大社区推进多模态语言-视觉模型研究。 LAION-5B的三个子集包括: 23.2 亿个英文图像-文本对。如果语言从上下文语境中可以看出,该子集被称为 LAION-2B-en 或 LAION-2B。 来自100 多种其他...
五、LAION-5B媒体图片下载 六、parquet不可不知(附下载链接) 推荐语 多模态大模型训练如火如荼展开,但以LAION-5B为代表的大规模多模态数据集获取却成了一个令人头疼的问题。 OpenDataLab两位工程师在浦数 AI Talk做了非常实用的LAION-5B下载经验分享,我们整理了其演讲内容、Parquet文件、图片下载工具,希望能对...
最近,LAION 宣布推出经过安全审查的新版本 AI 训练数据集 ——Re-LAION-5B。这个新数据集在之前广受欢迎的 LAION-5B 基础上进行了重大改进,特别是在清理与儿童性虐待材料(CSAM)相关的链接方面。LAION 表示,Re-LAION-5B 是全球首个在文本 - 图像对数据集上全面清除已知 CSAM 链接的网页规模数据集。
一、LAION-5B概述 LAION-5B由58.5亿个图像文本组合组成,通过CLIP过滤的图像分类模型,其中23亿是图像-英文文本对,22亿是图像,超过100个是非英语文本对,其余10亿对是不限于特定语言的图像和文本对,例如名称。在发布时发表的一份声明中,LAION研究团队表示,虽然在数十亿个图像文本对上训练的大规模图像文本模型显示出...
IT之家 12 月 21 日消息,据彭博社报道,斯坦福大学近日针对开源模型训练数据集 LAION-5B 展开研究,发现该数据集中存在 3000 项“可疑的儿童性虐待内容”,之后 LAION 项目维护人员紧急下架了 LAION-5B,并声称已经移除了 1008 项“确凿的相关内容”。▲ 图源 彭博社(下同)外媒表示,LAION-5B 训练集总共...
斯坦福大学网络观察站(Stanford Internet Observatory,SIO)近日针对开源数据集LAION-5B展开研究,发现该数据集存在着超过3,000笔可疑的儿童性虐待内容(Child Sexual Abuse Material,CSAM),之后LAION移除了被确认为CSAM的1,008笔相关内容。LAION的全名是Large-scale Artificial Intelligence Open Network(大规模的人工...