可以看出,没有经过多图训练的模型例如Qwen-VL和mPLUG-Owl2很快就败下阵来。而经过多图训练的LLAVA-Next-Interleave和Mantis在最开始能和mPLUG-Owl3保持近似的衰减曲线,但随着图片数目达到了50这个量级,这些模型也不再能正确回答了。而mPLUG-Owl3坚持到了400张图片还能保持40%的准确率。不过有一说一,尽管mPLU...
mPLUG-Owl 模型架构 本文提出了 mPLUG-Owl,其整体架构如图2所示。它由视觉基础模型 、视觉抽象模块 以及预训练语言模型 组成。视觉抽象模块将较长的、细粒度的图像特征概括为少量可学习的 Token,从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到语言模型中,以生成相应的回复。 训练策略 如图1...
具体而言,mPLUG-Owl2在Flickr30K数据集上实现了最先进的性能,即使与具有更强大骨干的模型(例如,Qwen VL Chat和InstructBLIP)相比也是如此。此外,mPLUG-Owl2在视觉问答方面表现出明显的优势,尤其是在无OCR的场景中,其中mPLUG-Owl2以零样本的方式在TextVQA数据集上实现了54.3%的准确率,证明了我们的训练策略的优势。
mPLUG-Owl3模型的核心结构由三个主要部分组成:视觉编码器SigLIP-400M、语言模型Qwen2,以及连接这两者的线性层。视觉编码器首先从图像中提取特征,然后通过线性层将这些特征映射到与语言模型相同的维度。在文本序列中,使用了特殊的标记来表示图像位置,并采用self-attention和cross-attention并行建模的方式,将图像特征...
阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式,到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯,再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。
推出通用多模态大模型mPLUG-Owl3,专门用来理解多图、长视频。 具体来说,以LLaVA-Next-Interleave为基准,mPLUG-Owl3将模型的First Token Latency缩小了6倍,且单张A100能建模的图像数目提升了8倍,达到了400张图片,实测4秒就能看完一部2小时的电影。
推出通用多模态大模型mPLUG-Owl3,专门用来理解多图、长视频。 具体来说,以LLaVA-Next-Interleave为基准,mPLUG-Owl3将模型的First Token Latency缩小了6倍,且单张A100能建模的图像数目提升了8倍,达到了400张图片,实测4秒就能看完一部2小时的电影。
📖 mPLUG-Owl模型简读mPLUG-Owl模型的结构主要采用CLIP ViT-L/14作为视觉模块,结合LLaMA作为文本模块。与LLaVA的选择相似,但增加了Visual Abstractor来提取重要的视觉特征,以便用少量的token来表征更多信息。🔍 模型细节 结构:采用CLIP ViT-L/14作为视觉模块,LLaMA作为文本模块,并融入了Visual Abstractor来提取关...
从图6中可以发现,mPLUG-Owl有较强的多轮对话能力。 从图7中可以发现,mPLUG-Owl还具有很强的推理能力。 尽管mPLUG-Owl已具有较强的图文理解能力,但和GPT-4相比仍有一些差距。如图8所示,mPLUG-Owl虽然已经正确理解了笑点,但错误地将VGA插头识别为了USB插头。
推出通用多模态大模型mPLUG-Owl3,专门用来理解多图、长视频。 具体来说,以LLaVA-Next-Interleave为基准,mPLUG-Owl3将模型的First Token Latency缩小了6倍,且单张A100能建模的图像数目提升了8倍,达到了400张图片,实测4秒就能看完一部2小时的电影。