作者设计了4种预训练代理任务:1)Masked Language Modeling(MLM);2)Masked Region Modeling(MRM,包含3种变体任务);3)Image-Text Matching(ITM);4)Word-Region Alignment(WRA) 1.1 Introduction 大多数视觉和语言(V+L)任务依赖于联合多模态嵌入来弥补视觉和文本之间的语义差距,但是这些表征通常都是为了解决特定问题而...
MLM 和 ITM 目标通常在多模态模型的预训练期间结合使用。例如,VisualBERT 提出了一种类似 BERT 的架构,它使用预训练的目标检测模型 Faster-RCNN 来检测目标。VisualBERT 在预训练期间结合了 MLM 和 ITM 目标,通过自注意力机制隐式对齐输入文本的元素和相应输入图像中的区域。 Faster-RCNN 论文地址: https://arx...
与之前只mask掉文本token的方法不同,作者在这里将图像块和文本token同时mask,设计了三个独立的自监督任务:(1)Masked语言建模(Masked Language Modeling,MLM),(2)Masked图像建模(Masked Image Modeling,MIM),(3)图像本文匹配(Image-Text Matching,ITM)。
2.图像-文本匹配损失(Image-Text Matching Loss,ITM): 图像-文本匹配损失(ITM)主要用于ViT和Image-grounded text encoder的组合。其目标是学习图像-文本多模态表征,捕捉视觉和语言之间的细粒度匹配。ITM 是一个二分类任务,模型使用 ITM 头(线性层)预测图像-文本对的多模态特征是正面(匹配)还是负面(不匹配)。 BLIP...
Image-Text Matching (ITM)旨在学习将image与text的表征进行细粒度对齐。这一部分本质上做的是二分类任务,即判断一个image-text pair是否是匹配的。作者使用了bi-directional self-attn mask,其中queries和texts可以相互交互。作者将output query送入一个类别数为2的线性层得到二分类分数,再对所有query得分数进行average...
Image-Text Matching:ITM,学习文本-图片的对齐性。对每个训练样本,随机采样图片的文本负例和文本的图片负例,生成负的训练数据。用[CLS]做为模型输入序列的第一个token,同时使用fc层去获得文本-图片的相似度得分。该任务使用的是二分类的loss,计算公式如下: ...
作者设计了三个预训练任务:掩码语言建模 (Masked Language Modelin,MLM)、图像文本匹配 (Image-Text Matching,ITM) 和掩码区域建模 (Masked Region Modeling, MRM)。不同于在多模态预训练的并发工作-将联合随机掩码应用于两种模态的训练,作者在预训练任务上使用了条件掩码。综合分析表明,条件掩码比非条件掩码产生更好...
Image-Text matching (ITM) is a common task for evaluating the quality of Vision and Language (VL) models. However, existing ITM benchmarks have a significant limitation. They have many missing correspondences, originating from the data construction process itself. For example, a caption is only...
ImageText Matching (ITM), and Word-Region Alignment (WRA). Different from previous work that applies joint random masking to both modalities, we use conditional masking on pre-training tasks (i.e., masked language/region modeling is conditioned on full observation of image/text). In addition ...
可以看到,模型可以分为三个板块,其中ITC表示“image-text contrative”,用来对齐视觉和语言表示;ITM表示“image-text matching”,使用交叉注意力层来模拟图文信息交互,来区分正负图像-文本对;LM表示“language model”,用causal注意力代替双向注意力机制,并且与编码器共享参数,用来生成图片描述。作者将这种结构称作MED(...