CVPR 2022微软发表的这篇工作,希望同时利用图像、文本、label三者的信息,构建一个统一的对比学习框架,同时利用两种训练模式的优势。下图反映了两种训练模式的差异,Image-Label以离散label为目标,将相同概念的图像视为一组,完全忽视文本信息;而Image-Text以图文对匹配为目标,每一对图文可以视作一个单独的label,文本侧引...
HACL方法的核心思想是在对比学习中使用幻觉文本作为硬负样本,以此来改善文本和视觉表示的对齐效果。论文整体框架如图2所示: 图2. 子图 (a) 为HACL。在此框架中,采用 GPT-4 生成幻觉字幕作为图像到文本对比学习中的硬负样本。子图(b)显示了HACL的训练范例。 具体包括以下几个步骤: 跨模态对比学习: 将视觉和文...
以视觉模态为例(反之亦然),首先,被随机掩码的视觉模态在听觉模态的attentive tokens的指导下重建图像像素,从而有效关注细粒度特征并促进区域感知能力;进一步地,视觉模态在可学习learnable queries的指导下重建听觉模态的完整特征,从而有效加强模态间交互。实验表明,CrossMAE能够在分类,检索,定位,分...
Unsupervised Image-to-Image Translation with Generative Prior具有生成先验的无监督图像到图像翻译 Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation用于协同语音手势生成的学习分层跨模式关联 Versatile Multi-Modal Pre-Training for Human-Centric Perception用于以人为中心的感知的多功能多模...
近年来,LLM已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间带动了一系列多模态理解、生成、开放词表等任务的发展。然而针对更细粒度的目标级别的感知任务,目前依然缺乏一个强大的基础模型。
在本文中,作者提出了M3P,一个多任务、多语言、多模态预训练模型,通过多任务预训练目标将多语言预训练和多模态预训练结合到一个统一的框架中。M3P的目标是学习通用的表示,可以将以不同方式出现的对象或以不同语言表达的文本映射到一个公共语义空间。
指代分割 (Referring Image Segmentation,RIS) 是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。RIS 技术的突破有望在人机交互、图像编辑、自动驾驶等诸多领域带来革命性变革。它能够极大地提升人机协作的效率和体验。尽管目前最先进的 RIS...
分类:多模态 / NLP / Image Caption 太长不看版 本文提出了一种新的图像描述Image Caption算法,使用语义attention,融合了两种常见方法。 使用自底向上的方法检测语义概念或属性作为注意力的候选对象,并使用自顶向下的视觉特性来做attention,指导应该在何时何地激活注意力。
在本文中,作者提出了M3P,一个多任务、多语言、多模态预训练模型,通过多任务预训练目标将多语言预训练和多模态预训练结合到一个统一的框架中。M3P的目标是学习通用的表示,可以将以不同方式出现的对象或以不同语言表达的文本映射到一个公共语义空间。