只有encoder的VLP魔性,要比encoder-decoder要好(在VQA和zero-shot image-text retrieval任务中) Masked image modeling这个预训练任务不是那么重要 简介 这篇文章就是在视觉、语言特征提取上用了最新的有效的基于transformer的模型比如swin、roberta等,最后在下游任务上,比如VQA2.0,取得了仅次于sim