我们提出了ViLBERT(Vision-and-Language BERT的缩写),一个用于学习任务无关的图像内容和自然语言的联合表示。我们将流行的BERT架构扩展到一个多模态的双流模型,在单独的流中处理视觉和文本输入,通过共同注意力的transformer进行互动。我们通过在大型自动收集的概念性字幕数据集上的两个代理任务对我们的模型进行预训练,然...
在视觉语言语料库上预训练的损失是2部分损失之和,预测随机MASK词和RoIs。预训练提高了VL-BERT聚合和对齐视觉语言线索的能力。纯文本语料库的损失相当于BERT中标准MLM的损失,提高了对长句和复杂句的泛化能力。 综合经验数据表明VL-BERT在各种下游视觉-语言任务(如视觉常识推理(VCR)、视觉问题回答(VQA)和参考表达理解(...
计算机视觉领域通用的预训练模型包括在ImageNet上训练的各种卷积神经网络(CNN)。自然语言处理(NLP)领域在2018年提出的BERT模型(双向Transformer结构,利用了self-attention来增加上下文的相关性)逐渐成为了语言任务中首选的预训练模型。但在视觉与语言交叉的领域还没有出现一个通用的预训练模型。 本文作者基于BERT模型的思想...
它们首先通过自监督学习进行预训练,其通常利用辅助任务(预训练目标)从大规模未标记数据中自动挖掘监督信号来训练模型,从而学习通用表示。 然后,他们可以通过仅在下游任务上使用少量人工标记数据进行微调就能实现令人惊讶的效果。自从 BERT 在自然语言处理(NLP)中出现以来,各种预训练模型在单模态领域如雨后春笋般涌现,例如...
对于视觉语言模型的预训练: 1. 细粒度视觉语言关系建模:通过考虑局部的视觉语言相关性知识,视觉语言模型可以更好地识别图像的区域和像素点,特别对于密集预测任务如目标检测和语义分割,在各种视觉识别任务中起到重要作用。 2. 统一视觉和语言学习的架构:Transformer 的出现使得图像和文字可以通过相同的方式进行学习,这使得...
在过去的几年里,视觉语言预训练(Vision-Language Pre-trained, VLP)基础模型(如 CLIP)通过适应(adapting)或提示(prompting)的范式在使用少量任务相关数据的基础上进行迁移,在许多下游任务上取得了出色的结果。 这些基础模型的主要优点是,它们可以通过自监督约束从网络数据和各种下游任务数据(例如,BeiT-3)中学习通用的...
1、本发明的目的在于提供一种面向视觉-语言任务的预训练语言模型适配方法。根据视觉-语言任务中给定的图像和描述文本,动态地提取出高效的、紧凑的视觉提示,并适配到给定的预训练语言模型,结合参数高效化的迁移学习方法,实现单模态任务和多模态任务的转换。
ViLBERT(Lu et al.2019)代表视觉与语言BERT。 听起来确实像是BERT模型的一个版本(Devlin等人,2018年),该模型很快就变成了NLP任务的SOTA,并集成了视觉输入。 ViLBERT是用于多模态任务,如视觉问答(VQA)和参考表达式。 该模型有效地继承了BERT模型,BERT模型的许多部分在该方法中保持不变。
来自中科大、微软亚研院的研究者们提出了一种新型的通用视觉-语言预训练模型(Visual-Linguistic BERT,简称 VL-BERT),该模型采用简单而强大的 Transformer 模型作为主干网络,并将其输入扩展为同时包含视觉与语言输入的多模态形式,适用于绝大多数视觉-语言下游任务。
基于该解耦方案预训练的视频网络模型可以迁移至行为理解和视频检索两项下游任务,性能均显著超越 SOTA。通过本文已被 CVPR 2021 会议接收。 架构图。 推荐:基于上下文和运动解耦的自监督视频表征学习。 ArXiv Weekly Radiostation 机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,...