VL-BERT 基于 Transformer 模型,采用单一流的架构来处理视觉和语言信息。整体架构和BERT类似,主要区别在于嵌入层。VL-BERT的嵌入层由四种嵌入相加得到,如上图所示。具体包含: 词嵌入 (Token Embedding) 语言元素:对于语言元素,即句子中的单词,VL-BERT 采用与 BERT 相同的 WordPiece 嵌入,即对单词进行分词并将其嵌入...
VL-BERT使用Conceptual Captions作为视觉-语言语料库进行预训练,并将BooksCorpus 数据集和英文维基百科作为文本语料库进行预训练。由于VL-BERT是基于BERT模型添加捕捉视觉信息的新输入,所以模型初始化参数使其与BERT相同。VL-BERT BASE和VL-BERT LARGE分别表示从原始BERT BASE和BERT LARGE模型发展而来。 3.2对下游任务进行...
BERT模型在一个大型语料库上进行端到端训练,包括掩码语言建模和下一句预测两个任务。 .2 ViLBERT: Extending BERT to Jointly Represent Images and Text 不可能像处理文本那样使用BERT学习图像特征,对来自两种模式的输入一视同仁,忽略了它们可能需要不同的处理水平,这是由于它们固有的复杂性或其输入表示的初始抽象水平。
本文引入了一种新的可预训练的视觉语言任务通用表示,称为视觉语言BERT(简称VL-BERT)。VL-BERT采用了简单但功能强大的Transformer模型作为骨干,并对其进行了扩展,将视觉和语言嵌入特性都作为输入。在它中,输入的每个元素要么是输入句子中的一个单词,要么是输入图像中的一个感兴趣区域(RoI)。它的设计适合大多数视觉-语...
VL-BERT模型以transformer为骨干,将BERT扩展可以同时接受文本和图片型输入,学习跨模态的表示,在三个下游任务上远超task specific的SOTA模型,并取得和其他pretrain模型comparable或者略胜一筹的结果。 其主要的优势在于文本和图片的深度交互。对比同期工作LXMERT[2],对text和image输入分别使用single-modal Transformer,然后再...
VL-BERT是一个可预训练的通用视觉语言表征模型,它采用简单而强大的Transformer作为主干,并进行了扩展,将视觉和语言的嵌入特征作为输入。VL-BERT的输入元素要么来自输入句子的单词,要么来自输入图像的Region-of-Interest(RoI,感兴趣区域)。作者利用大规模Conceptual Captions数据集和纯文本语料库对VL-BERT进行了预训练。大...
来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型(Visual-Linguistic BERT,简称 VL-BERT),该模型采用简单而强大的 Transformer 模型作为主干网络,并将其输入扩展为同时包含视觉与语言输入的多模态形式,适用于绝大多数视觉-语言下游任务。
VL-BERT的预训练包含两个任务,其一是带有视觉线索的MLM任务,其部分目的与BERT相似,但是希望同时能捕捉视觉信息与文本信息之间的相关性。现在对VL-BERT的预训练过程进行细节分析: 数据集: VL-BERT使用的数据集有三种,分别是有330万个样本的”图像-标题“文本-图像混合数据集Conceptual Captions dataset,其中的每一张图...
VL-BERT: PRE-TRAINING OF GENERIC VISUAL- LINGUISTIC REPRESENTATIONS 在bert基础上加入了视觉信息, pre-training:Masked Language Modeling with Visual Clues,Masked RoI Classification with Linguistic C…