vlbert论文

2025-05-06 13:32:06

拼音 [ 拼音 ]

【论文阅读】 VL-BERT: Pre-training of generic visual...

Visual-Linguistic BERT的主干是多模态Transformer attention 模块,以视觉和语言嵌入特征作为输入。在输入中,每个元素要么来自输入句子的单词,要么来自输入图像的某个区域(RoI),以及某些特殊元素[CLS]、[SEP]、[END]等用来消除不同的输入格式的歧义。不同于BERT只将语言元素作为输入,VL-BERT将视... 查看原文 ICLR ...
VL-BERT: PRE-TRAINING OF GENERIC VISUAL-LINGUISTIC REPRESENTATIONS...

本文引入了一种新的可预训练的视觉语言任务通用表示,称为视觉语言BERT(简称VL-BERT)。VL-BERT采用了简单但功能强大的Transformer模型作为骨干,并对其进行了扩展,将视觉和语言嵌入特性都作为输入。在它中,输入…