共计约5.85B数据,是基于CLIP过滤的。基于这个大型数据集,作者也发布不同侧重的子集。LAION2B-en是包含英文注释文本的,LAION2B-multi是包含100多种的其它注释文本语言的,LAION2B-nolang其中文本注释至少包含一种无法准确检测识别的语言等等。 示例https://laion.ai/blog/laion-5b/ COCO-700M 图文对数据集,包含...
LAION训练了一个基于CLIP嵌入的色情内容识别模型NSFW,可以过滤3%的不适图片,NSFW准确率约96%,过滤后有子集: ● laion2B-en-safety ● laion2B-multi-safety ● laion1B-nolang-safety LAION训练了一个水印识别模型,过滤后有子集: ● laion2B-en-watermark ● laion2B-multi-watermark ● laion1B-nolang...
图5: 对比了WIT(官方)、在LAION-400M和LAION-2B-en上训练的CLIP模型在下游数据集的zero-shot性能对比,可以看到LAION训练的模型性能优越。 3.4 其他任务 LAION数据丰富,可以筛选需要的数据做其他任务,比如可以在LAION-2B-multi中筛选指定语言数据做低资源语言任务,可以做数据重叠对模型的影响、模型偏见等等。
23.2 亿个英文图像-文本对。如果语言从上下文语境中可以看出,该子集被称为 LAION-2B-en 或 LAION-2B。 来自100 多种其他语言的22.6 亿个图像-文本对。在多语言子集中,使用频率最高的前五种语言分别是俄语(10.6%)、法语(7.4%)、德语(6.6%)、西班牙语(6.6%)和汉语(6.3%)。 12.7 亿个无法检测语言的样本,...
(path_proc) # 因数据总量较大,这里按子集分批读取 parquet_path = "/nvme/datasets/laion5b/parquet/laion2B-en" # parquet_path = "/nvme/datasets/laion5b/parquet/laion2B-multi" # parquet_path = "/nvme/datasets/laion5b/parquet/laion2B-nolang" # Hive一级分区名称 head_tail = os.path....
laion2b-en:2.32 billion of these contain texts in the English language laion2b-multi:2.26 billion contain texts from 100+ other languages laion1b-nolang:1.27 billion have texts where a particular language couldn’t be clearly detected. 其中每个数据集官方提供了原始图片的URL,可以根据URL下载图片...
Available add-ons Advanced Security Enterprise-grade security features GitHub Copilot Enterprise-grade AI features Premium Support Enterprise-grade 24/7 support Pricing Search or jump to... Search code, repositories, users, issues, pull requests... Provide feedback We read every piece of ...
1.Laion2B: https://huggingface.co/datasets/laion/laion2B-en 2.multimodal-c4: https://github.com/allenai/mmc4 有两个链接:2.1:https://storage.googleapis.com/ai2-jackh-mmc4-public/data/docs_no_face_shard_23098_v2.jsonl.zip 2.2:https://storage.googleapis.com/ai2-jackh-mmc4-public/...
- `mkdir en-embeddings && cd en-embeddings` - `for i in {0000..2313}; do aria2c -x 16 https://huggingface.co/datasets/laion/laion2b-en-vit-h-14-embeddings/resolve/main/metadata/metadata_$i.parquet -o $i.parquet; done` - `for i in {0000..2313}; do aria2c -x 16 https:...
images generated by Stable Diffusion 2.0 from LAION2B-en prompts