【论文阅读】 VL-BERT: Pre-training of generic visual-linguistic representations,程序员大本营,技术文章内容聚合第一站。
其中,视觉特征Embedding是新引入的,用于捕捉视觉线索,而其他三个Embedding则遵循原始 BERT 论文中的设计。 Token Embedding:按照BERT 的做法,语言词嵌入到 WordPiece embeddings中,词汇量为30,000。为每个特殊元素分配一个特殊标记。对于视觉元素,为每个元素分配一个特殊的 [IMG] 标记。 视觉特征Embedding:我们首先分别...
VL-BERT 的预训练任务设计旨在通过视觉和语言模态之间的交互,学习通用的跨模态表示。论文中设计了两个主要的预训练任务: 任务1:带有视觉线索的掩蔽语言模型 (Masked Language Modeling with Visual Clues): 类似于 BERT 中的掩蔽语言模型 (MLM),但增加了视觉线索。模型会随机掩蔽输入句子中的单词,并通过未掩蔽的单词...
今天介绍中国科学技术大学和微软亚洲研究院朱西洲老师团队在ICLR2020的论文,该研究提出了一种新的图形神经网络的几何聚合方式,其核心思想是:在bert的基础上为视觉-语言相关任务做预训练。 VL-BERT: 可预训练的通用视觉-语言表示 作者提出了一种新型可训练通用预训练表示,用于视觉-语言任务,称为视觉-语言BERT(简称VL-...
ICLR 2020| VL-BERT:预训练视觉-语言模型 今天介绍中国科学技术大学和微软亚洲研究院朱西洲老师团队在ICLR2020的论文,该研究提出了一种新的图形神经网络的几何聚合方式,其核心思想是:在bert的基础上为视觉-语言相关任务做预训练。 VL-BERT: 可预训练的通用视觉-语言表示...
来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型(Visual-Linguistic BERT,简称 VL-BERT),该模型采用简单而强大的 Transformer 模型作为主干网络,并将其输入扩展为同时包含视觉与语言输入的多模态形式,适用于绝大多数视觉-语言下游任务。 为了让 VL-BERT 模型利用更为通用的特征表示,作者在...
来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型(Visual-Linguistic BERT,简称 VL-BERT),该模型采用简单而强大的 Transformer 模型作为主干网络,并将其输入扩展为同时包含视觉与语言输入的多模态形式,适用于绝大多数视觉-语言下游任务。
简介:来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型(Visual-Linguistic BERT,简称 VL-BERT),该模型采用简单而强大的 Transformer 模型作为主干网络,并将其输入扩展为同时包含视觉与语言输入的多模态形式,适用于绝大多数视觉-语言下游任务。
【论文阅读】 VL-BERT: Pre-training of generic visual-linguistic representations 非常相似。关键区别在于VL-BERT中包含了视觉线索,以捕获视觉和语言内容之间的依存关系。在预训练期间,输入句子中的每个单词都会被随机mask(概率为15%)。对于被屏蔽的单词,其token被替换为[MASK]。预训练模型基于未被mask的单词和视觉...
VL-BERT模型以transformer为骨干,将BERT扩展可以同时接受文本和图片型输入,学习跨模态的表示,在三个下游任务上远超task specific的SOTA模型,并取得和其他pretrain模型comparable或者略胜一筹的结果。 其主要的优势在于 文本和图片的深度交互。对比同期工作LXMERT[2],对text和image输入分别使用single-modal Transformer,然后...