他们最近用开源OpenCLIP训练了三个表现极好的大规模CLIP模型,分别是ViT-L/14, ViT-H/14 和ViT-g/14 (其中ViT-g/14是只训练了大约三分之一的epoch)。其中ViT-H/14模型在ImageNet的zero shot top-1精度上达到78.0%和在MS COCO的zero shot 图像检索的Recall@5上达到73.4% (✪ω✪),据所知在当前9月...
1.1 图文对数据集 最开始,数据集均通过人工注释生成,如COCO[7]和Visual Genome[8],COCO Captions在COCO图片数据基础上,由人工标注图片描述得到。Visual Genome是李飞飞2016年发布的大规模图片语义理解数据集,含图像和问答数据,标注密集,语义多样。这两个数据集主要用于图像生成描述(Visual Genome也可以用于图像问答),...
对象或关系在场景图和生成的图像中以相同的颜色突出显示,以表明 SDXL-SG 成功捕获了复杂的场景。 COCO-Stuff、Visual Genome 和 LAION-SG (LS) 的结果。第一和第二最佳选项以粗体和下划线显示。 现有T2I 和 SG2IM 模型以及我们的基准模型在复杂场景生成基准上的结果。最佳图标以粗体显示,次佳图标以下划线显示。
COCO-700M 图文对数据集,包含约747M条数据。从HTML文档中提取约10B对数据清理后得到的 示例https://github.com/kakaobrain/coyo-datasethttps://en.wikipedia.org/wiki/Napoleon COCO 微软发布的上下文通用物体数据集,该数据集涵盖了目标检测、分隔、关键点检测、图文注释这4个方面,共计有328k张图片。 示例https:...
当然,我们也可以使用训练好的模型在coco 1k数据集上生成图片。 然后可以`generate_images.py`文件生成对应的图片。 ```bash python generate_images.py \ --model_name_or_path ./ldm_pipelines \ --file coco1k \ --batch_size 16 \ --save_path ./outputs \ --guidance_scales 3 \ --seed 42 \ ...
当然,我们也可以使用训练好的模型在coco 1k数据集上生成图片。 然后可以`generate_images.py`文件生成对应的图片。 ```bash python generate_images.py \ --model_name_or_path ./ldm_pipelines \ --file coco1k \ --batch_size 16 \ --save_path ./outputs \ --guidance_scales 3 \ --seed 42 \ ...
COCO-Stuff、Visual Genome 和 LAION-SG (LS) 的结果。第一和第二最佳选项以粗体和下划线显示。 现有T2I 和 SG2IM 模型以及我们的基准模型在复杂场景生成基准上的结果。最佳图标以粗体显示,次佳图标以下划线显示。 消融研究的结果。属性表示数据比例。