通过增强的预训练方法,作者构建VILA,一个视觉-语言模型族,在主要基准测试中始终优于最先进的模型,例如LLaVA-1.5。多模态预训练也有助于揭示VILA的特性,包括多图像推理、增强的上下文学习和更好的世界知识。 如图所示:与最近的方法相比,VILA增强的视觉-语言预训练持续地提高下游任务的准确性。此外,预训练过程解锁了模...
本文针对场景文本检测的问题,提出了利用视觉语言模型对检测器进行预训练,通过设计Image-text Contrastive Learning、Masked Language Modeling和Word-in-image Prediction三个预训练任务有效得结合文本、图像两个模态的特征,帮助主干网络提取到更丰富的视觉与语义特征,以此提高文本检测器的性能。该预训练方法可以有效提升各文本...
我们提出了一种编码器-解码器多模态混合,这是一种统一的视觉语言模型,它可以在以下三种功能中运行之一: (1) 单模态编码器使用图像文本对比(ITC)损失进行训练,以对齐视觉和语言表示。 (2) 图像接地文本编码器使用额外的交叉注意力层来模拟视觉语言交互, 并使用图像文本匹配(ITM)损失进行训练,以区分正负图像文本对。
在本文中,来自中国科学院自动化研究所、中国科学院大学的研究者调查了视觉 - 语言预训练(vision-language pre-training,VLP)最新进展和新领域,包括图像 - 文本预训练和视频 - 文本预训练。VLP 通过对大规模数据的预训练来学习不同模态之间语义对应关系。例如,在图像 - 文本预训练中,研究者期望模型将文本中的狗与...
视觉-语言 (Vision-Language, VL) 是计算机视觉和自然语言处理这两个研究领域之间形成的交叉领域,旨在赋予AI系统从多模态数据中学习有效信息的能力。受 NLP 预训练语言模型(如BERTGPT等)的启发,视觉-语言预训练 (Vision-Language Pre-training, VLP) 逐渐受到关注,成为如今 VL 任务的核心训练范式。本文对 VLP 领域...
视觉-语言 (Vision-Language, VL) 是计算机视觉和自然语言处理这两个研究领域之间形成的交叉领域,旨在赋予 AI 系统从多模态数据中学习有效信息的能力。受 NLP 预训练语言模型(如BERT\GPT等)的启发,视觉-语言预训练 (Vision-Language Pre-training, VLP) 逐渐受到关注,成为如今 VL 任务的核心训练范式。本文对 VLP...
2021年12月16日,北京大学深圳研究生院党委副书记、教授、博士生导师、北京大学现代信号与数据处理实验室主任邹月娴在中国计算机大会(CNCC 2021)“产业共话:大型预训练模型的商业应用及技术发展方向”论坛上,做了《视觉-语言预训练模型演进及应用》的报告,讨论了围绕大规模预训练模型的争议、最新进展以及研究思路,并给出...
在过去几年中,预训练模型的出现将计算机视觉(CV)和自然语言处理(NLP)等单模态领域带入了一个新时代。大量工作表明它们有利于下游单模态任务,并可以避免从头开始训练新模型。那么这样的预训练模型能否应用于多模态任务呢?研究人员已经探索了这个问题并取得了重大进展。本文调查了视觉-语言预训练 (VLP) 的最新进展和新...
模型训练:采用sigmoid损失函数 1. Sigmoid损失函数的选择与优势 在处理视觉-语言对比预训练中,特别是在面对数据质量和噪声问题时,传统的对比损失函数(如InfoNCE)可能不足以处理多个正样本的情况。这是因为这些损失函数通常假设每个样本只有一个正样本。为了解决这一问题,我们采用了sigmoid损失函数。Sigmoid损失函数的主要优...
视觉-语言 (Vision-Language, VL) 是计算机视觉和自然语言处理这两个研究领域之间形成的交叉领域,旨在赋予 AI 系统从多模态数据中学习有效信息的能力。受 NLP 预训练语言模型(如BERTGPT等)的启发,视觉-语言预训练 (Vision-Language Pre-training, VLP) 逐渐受到关注,成为如今 VL 任务的核心训练范式。本文对 VLP ...