图5: 对比了WIT(官方)、在LAION-400M和LAION-2B-en上训练的CLIP模型在下游数据集的zero-shot性能对比,可以看到LAION训练的模型性能优越。数据来源:[2] 3.4 其他任务 LAION数据丰富,可以筛选需要的数据做其他任务,比如可以在LAION-2B-multi中筛选指定语言数据做低资源语言任务,可以做数据重叠对模型的影响、模型...
LAION2B-en是包含英文注释文本的,LAION2B-multi是包含100多种的其它注释文本语言的,LAION2B-nolang其中文本注释至少包含一种无法准确检测识别的语言等等。 示例https://laion.ai/blog/laion-5b/ COCO-700M 图文对数据集,包含约747M条数据。从HTML文档中提取约10B对数据清理后得到的 示例https://github.com/k...
58.5亿!世界第一大规模公开图文数据集LAION-5B 解读) 二、 LAION-5B 数据集结构 根据官方文件统计,LAION-5B数据有5,860,068,373个样本,按照语言被官方划分为3个子数据集,分别是: laion2b-en:2.32 billion of these contain texts in the English language laion2b-multi:2.26 billion contain texts from ...
其中每个数据集官方提供了原始图片的URL,可以根据URL下载图片文件,以及些URL上的标签。这部分元数据被存储在parquet文件中。样例parquet文件结构如下: data_sample ├── laion2B-en │ ├── part-00006-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet │ ├── part-00014-5114fd87-297e-...
laion2B-en其中 23.2 亿个包含英语文本 laion2B-multi22.6 亿包含来自 100 多种其他语言的文本 laion1B-nolang12.7 亿有无法清楚检测到特定语言的文本。 可以使用img2dataset轻松下载数据。 对于训练使用,建议阅读训练使用指南。 另外还发布了这些数据: ...