2.图像-文本匹配损失(Image-Text Matching Loss,ITM): 图像-文本匹配损失(ITM)主要用于ViT和Image-grounded text encoder的组合。其目标是学习图像-文本多模态表征,捕捉视觉和语言之间的细粒度匹配。ITM 是一个二分类任务,模型使用 ITM 头(线性层)预测图像-文本对的多模态特征是正面(匹配)还是负面(不匹配)。 BLIP...
Image-Text Matching Loss (ITM) activates the image-grounded text encoder. It aims to learn image-text multimodal representation that captures the fine-grained alignment between vision and language. ITM is a binary classification task, where the model uses an ITM head (a linear layer) to predict...
先用contrastive loss进行对齐,然后再使用一个decoder,使用cross-attention进行特征融合然后text decoding。
只学习cross-attention,使用图文匹配/对比/生成loss (类似BLIP),最后引入LLM进行监督微调,赋予多模态对...
2. 图文匹配目标函数 (Image-Text Matching Loss, ITM) ITM 作用于视觉编码器和视觉-文本联合编码器,旨在学习图像和文本之间的细粒度对齐关系。作为一个分类任务,ITM 使用分类头来预测图文对是否为正样本。另外,ITM 和 ITC 都采用了 ALBEF 中的 hard negative mining 技术,进一步提升了训练效果。 3. 语言模型目...
loss_itm = F.cross_entropy(vl_output, itm_labels) image-grounded text decoder 用因果自注意力层替换双向自注意力层,增加了特殊字符“[Decode]”,用于表示序列的开始,序列结束标记依旧用“end”表示。 代码实现如下: decoder_input_ids = text.input_ids.clone() ...
学习率:为了训练更稳定,视觉编码器的学习率通常应该比LLM学习率小10倍~5倍,更大的LLM需要更小的学习率,尽量避免loss跑飞。 视觉编码器:相较于模型大小,基于分辨率、token数的视觉特征支持编码更多的视觉细节,预训练数据支持编码更多的视觉知识,作用更重要。 视觉表征:分辨率、特征空间视觉token数都重要,相对来说扩展...
on scale其实都略显乏力,尤其是(c),而且作者发现通常scaling on scale都能取得一个更低的loss,但是...
Image-Text Matching Loss (ITM)激活图像-文本编码器。 它旨在学习图像-文本多模式表示,捕捉视觉和语言之间的细粒度对齐。 ITM 是一项二元分类任务,其中模型使用 ITM 头(线性层)来预测图像-文本对是正(匹配)还是负(不匹配)给定的多模态特征。 Language Modeling Loss (LM)激活图像-文本解码器,其目的是在给定图像...
上面是CAAN的流程图,主要由三个模块组成(1)Bottom-Up attention和Bi_GRU用于分别提取和encode image和sentence的信息。(2)context-aware attention用于提取跨模态的全局信息,即region-word之间的语义关联和但模态的予以关联(3)第三部分用于通过 image-text matching loss训练网络。