比如最近大火DALLE-2 ,可以根据文本描述生成惊为天人的图像 在模型设计中就使用CLIP的TextEncoder和ImageEncoder,来产生文本和图片的表示向量,在训练过程让文本特征向量通过diffusion向图片的表示向量靠近 二.需要解决的问题 从上边的Image-Text Pretraining可以看到要达到比较好效果,需要解决以下几个问题 1.网络设计 图片...
我们发现,描述生成器和过滤器一起工作,可以在各种情况下大幅提高性能。在各种下游任务中,通过对描述的Bootstrapping,实现了大幅度的性能提升。我们还发现,更多样化的图像描述会产生更大的收益。 BLIP在多个视觉语言任务上取得了最先进的性能。视觉语言任务,包括图像文本检索、图像描述生成、VQA。我们的模型迁移到两个视...
最终,我们得到了文字-重点区域对所对应的各自特征表示。类似于CLIP[3]中的contrastive image-text alignm...
将phrase grounding和目标检测任务统一,将image和text prompt同时输入到目标检测网络中,prompt中带有图片中...
2.2 Pre-training LayoutLM Task-1. Masked Visual-Language Model (MVLM),掩码视觉语言模型损失 。在预训练过程中,随机屏蔽了一些输入tokens,但保留了相应的2-D position embedding,然后训练模型预测给定上下文的屏蔽token。 通过这种方式,LayoutLM模型不仅能理解语言语境,还能利用相应的二维位置信息,从而弥合视觉和语言...
CLIP由于训练集image-text pair比任何已有的anation数据集都包含更丰富的视觉概念,很容易0-shot迁移到下游任务,但是只做文本图片后融合的对齐,由于缺少object级别的细粒度理解,无法应用到到多模态检测任务。 对上面提出目标检测,分割等稠密任务需要text-image细粒度理解问题,现有的grounding任务就是细粒度的text和object的...
We perform an analysis of this dataset, as well as benchmark its effectiveness against CC3M on multiple downstream tasks with an emphasis on long-tail visual recognition. The quantitative and qualitative results clearly illustrate the benefit of scaling up pre-training data for vision-and-language ...
4. Image-Text Retrieval 这个任务其实就是以图搜文或者反过来以文搜图,所以就像推荐任务差不多,用一个双塔分别对文本和图片进行编码,然后计算相似度即可。 文章中在COCO和Flickr数据集上进行了实验,具体结果如下: 更进一步的,文章中还直接在Flickr数据集上进行了zero-shot的考察,同样得到了非常理解的结果。
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks 边看边写的。写晕乎了。。 摘要: 当前视觉语言任务常用 大规模预训练模型+多模态表示(这里指image-text pair)。他们结合的比较暴力(图文简单拼接+self-attention机制),我们的核心idea就是引入了目标识别生成的tag 作为锚点降低了对齐难度。
何恺明等人在新作Rethinking ImageNet Pre-training中使用详细的对比实验和分析提出了对基于ImageNet预训练的新的思考。研究发现,对于在COCO数据集上的目标检测和实例分割任务,使用随机初始化的参数会收敛的更慢,但最终所达到的结果不比使用在ImageNet上预训练的参数差。