为了充分利用单模态预训练模型,VLP 模型可以将视觉或文本特征发送到 Transformer 编码器。具体来说,VLP 模型利用具有随机初始化的标准 Transformer 编码器来生成视觉或文本表示。此外,VLP 模型也可以利用预训练的视觉 Transformer 对 ViT-PF 进行编码,例如 ViT 和 DeiT。 VLP 模型可以使用预训练的文本转换器对文本特征...