在官方下载parquet元数据时,发现以下几个小问题: similarity、aesthetic_score等指标分布在多个parquet文件中,字段分散、类型不统一,需要多次下载。使用时需要先关联组合查询,TB级的文件处理速度慢,需要高配置的服务器进行处理; parquet文件中图片存储路径规则不明确,通过parquet过滤筛选图片时,无法关联下载图片的存储路径和...
因此这一领域的研究,只集中在少数几个机构中,2021年公布的LAION-400M[1]是当时最大的公开图文数据集,本次发布的LAION-5B[2]是LAION-400M的14倍,足够规模的公开数据使得该领域的研究更多元化,能够让更多的研究者参与到这一领域的研究中。
13 aesthetic_score 艺术评分 float Laion-aesthetic 14 language 语言类型 string Joined: with punsafe and pwatermark 15 file_name parquet文件名称 string 初始Laion5B 上表中,最后一列是parquet文件来源,表示字段对应的parquet文件。这里使用了官方的3处parquet文件,数据预览、下载链接如下: ...