RedCaps 是一个大规模的图像-文本对 (image-text pair) 数据集,数据源自 Reddit,总数达 120 万。这些图片和文本描述了各种各样的物体和场景。 这些数据是从一组人为管理的 subreddit 集中收集的,subreddit 提供了粗略的图像标签,并允许在不标记单个实例的情况下,指导数据集的组合。 密歇根大学的团队发布了该数据...