本文引入了一种新的可预训练的视觉语言任务通用表示,称为视觉语言BERT(简称VL-BERT)。VL-BERT采用了简单但功能强大的Transformer模型作为骨干,并对其进行了扩展,将视觉和语言嵌入特性都作为输入。在它中,输入的每个元素要么是输入句子中的一个单词,要么是输入图像中的一个感兴趣区域(RoI)。它的设计适合大多数视觉-语...
【论文阅读】 VL-BERT: Pre-training of generic visual-linguistic representations,程序员大本营,技术文章内容聚合第一站。