【论文阅读】 VL-BERT: Pre-training of generic visual-linguistic representations,程序员大本营,技术文章内容聚合第一站。
本文引入了一种新的可预训练的视觉语言任务通用表示,称为视觉语言BERT(简称VL-BERT)。VL-BERT采用了简单但功能强大的Transformer模型作为骨干,并对其进行了扩展,将视觉和语言嵌入特性都作为输入。在它中,输入的每个元素要么是输入句子中的一个单词,要么是输入图像中的一个感兴趣区域(RoI)。它的设计适合大多数视觉-语...
VL-BERT是基于BERT (Bidirectional Encoder Representations from Transformers)模型的升级版本。VL-BERT (Visually grounded Linguistics BERT)被设计用于处理视觉和语言交互的任务,包括视觉问答(VQA)和自然语言图像检索(NLIR)等应用。 特性 VL-BERT的主要特点包括: 双流(two-stream)架构:VL-BERT采用两个从自然语言和视觉...