随着大语言模型进入多模态时代,LLaVa、MiniGPT-4、BLIP-2、InstructBLIP等开源视觉-语言大模型接踵而至,它们在视觉编码器、大语言模型、训练方案等关键方面各不相同,颇有“乱花渐欲迷人眼”之感。近日,Standford的Percy Liang团队在LLaVa-v1.5的基础上对各种视觉-语言模型的关键组件进行了系统的消融实验分析,总结成了...
·由于目前还没有统一的视觉/语言通用大模型底座,更多的是利用各自领域训练好的大模型,对一些对齐和后续特定任务的finetuning。其实多模态这块没有看到什么新的方法论,研究工程更多的是在处理数据,或者为了减少脏数据对效果的影响,在模型结构设计和训练上做一些适当的调整。整体工作涉及到16篇paper。 对齐视觉和文本的e...
先前的研究已经发现了基于深度学习的医学图像模型中的偏见,主要集中在胸部X光诊断上。与这些仅限视觉的模型不同,近期视觉-语言(VL)基础模型的兴起设定了跨越广泛任务领域的新基准。然而,尽管这些VL模型表现出色,它们的公平性仍然不明确。鉴于仅限视觉的模型存在偏见,以及临床医学报告的人工编写特性,VL模型可能会进...
除了文本生成模型外,多模态模型在诸如人机交互、机器人控制、图像搜索和语音生成等领域也得到了越来越广泛的应用。然而,将语言模型的能力转移到多模态文本和图像领域仍然是一个活跃的研究领域,因为纯文本语言模型通常仅在文本语料库上进行训练,缺乏对视觉信号的感知能力。关于多模态模型的几篇综述文章,但每篇文章关注的焦...
本研究提出了ParGo(局部-全局投影器),一种创新的视觉-语言投影方案,旨在提升多模态大语言模型(MLLMs)中视觉和语言模态的对齐效果。 ParGo通过结合局部token和全局token,并使用精心设计的注意力掩码分别提取局部和全局信息,在控制token数量的...
stage1. 预训练:基于大规模、弱标注、网络爬取的图像-文本对,输入分辨率224x224,冻住LLM,训练ViT和Q-former,主要目的是模态对齐 stage2. 多任务预训练:基于7种下游视觉-语言理解任务的高质量、细粒度标注数据训练,输入分辨率448x448,图像/文本数据交错,训练整个模型 ...
阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒(CMM),这是首个系统性地研究面向语言,视觉,和音频的多模态大模型(LMMs)幻觉问题的工作,对幻觉问题提供深入的分析和评估方法。 在本文中,我们我们系统性地分析了 LMMs 在最常见的三种模态(语言、视觉、音频)任务中的幻觉表现,揭示了...
随着大规模语言模型(LLM)的快速发展,多模态大语言模型(MLLMs)成为视觉与语言任务的主流解决方案。然而,现有的视觉编码器(如 CLIP 和 SigLIP)虽然在整体语义提取方面表现出色,但存在明显不足:缺乏细粒度理解:仅捕获图像的整体语义,忽略像素级和局部区域的细节。任务泛化能力有限:难以适配 OCR、物体定位等...
图1:对比其他MLLMs,九天在大部分任务上都取得了最优的性能。九天JiuTian-LION 借助大型语言模型(LLMs)惊人的语言理解能力,一些工作开始通过赋予 LLM 多模态感知能力,来生成多模态大语言模型(MLLMs),并在很多视觉语言任务上取得突破性进展。但是现有的MLLMs大多采用图文对预训练得到的视觉编码器,比如 CLIP-...
图1 不同遥感解译任务上视觉语言多模态大模型效果对比图 具体而言,LHRS-Bot训练过程主要包括视觉语言对齐与视觉指令微调两个阶段。 视觉语言对齐 大语言模型本身不具备对遥感图像的识别能力。为向大语言模型注入丰富的遥感视觉知识,利用全球范围内的遥感图像与Open Street Map(OSM)属性数据库构建大规模“遥感图像-文本...