我们的DocOwl 1.5在所有10个基准测试中的表现都优于特定领域的模型和类似大小的MLLMs。这验证了DocOwl 1.5在跨越5个领域的视觉文档理解上更为强大,涵盖了视觉问答、信息检索、自然语言推理和图像字幕任务。此外,使用更少的非自然数据(3M vs 9M)和参数(8.1B vs 17.3B),DocOwl 1.5在InfoVQA和ChartQA上的表现超...
mPLUG-DocOwl 2聚焦多页文档理解,在大幅缩减单页视觉token的前提下实现了多页文档理解的SOTA效果,兼顾效果和效率,验证了当下多模态大模型对于文档图片的视觉表征存在冗余和资源的浪费。 mPLUG团队会持续优化DocOwl在多页文档理解上的能力...
在这项工作中,通过将文档理解数据纳入指令微调,mPLUG-DocOwl成功地将多样化的OCR-free文档理解能力注入到mPLUG-Owl中。实验结果表明,mPLUG-DocOwl在OCR-free文档理解方面达到了可比甚至更好的性能。此外,得益于语言-only和通用视觉-语言指令调优,mPLUG-DocOwl能够更好地理解用户指令和意图,实现更复杂的交互。然而,...
mPLUG-DocOwl 1.5 是阿里巴巴mPLUG团队在多模态文档图片理解领域的最新开源工作,在10个文档理解benchmark上达到最优效果,5个数据集上提升超过10个点,部分数据集上超过智谱17.3B的CogAgent,在DocVQA上达到82.2的效果。 github: https://github.com/X-PLU...
例如,mPLUG-DocOwl2模型采用了一种高分辨率文档压缩器,通过跨注意力机制,以全局低分辨率视觉特征为指导,将文档图像压缩成324个视觉标记。这种方法不仅显著减少了GPU内存的使用和推理时间,而且在多页文档理解基准测试中设定了新的最高标准。 此外,为了进一步提升模型的多页文档理解能力,研究人员还开发了三阶段训练框架,...
mPLUG团队 投稿 量子位 | 公众号 QbitAI 多模态文档理解能力新SOTA! 阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。 话不多说,先来看效果。 复杂结构的图表一键识别转换为Markdown格式: ...
mPLUG-DocOwl 1.5是目前在多模态文档领域最强的7B左右多模态大模型,具备多种类型文档图片的结构化解析能力,文字识别和定位能力以及指令遵循和详细解释能力,大幅度提升了开源大模型的通用文档理解性能。不过其距离闭源大模型仍然有较大差距,在自然场景中文字识别、数学计算等方面仍然有进步空间。mPLUG团队会进一步优化Doc...
mPLUG-DocOwl 2聚焦多页文档理解,兼顾效果和效率,在大幅缩减单页视觉token的前提下实现了多页文档理解的SOTA效果。 仅用324个token表示文档图片也能还原出图片的文字信息和布局信息,验证了当下多模态大模型几千的文档图片视觉表征存在较大的token冗余和资源的浪费。
总结 mPLUG-DocOwl是既GPT-4后首个具备视觉文档理解能力的多模态大语言模型,通过文档类数据的指令微调,它让多模态模型mPLUG-Owl具备了理解文档图片的能力。实验也表明它不仅具备卓越的性能,还具有很强的泛化和指令理解能力。
1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 ControlLLM、长视频理解视觉语言模型 LLaMA-VID和多模态文档理解大模型 mPLUG-DocOwl。 出品人严明的主要研究方向为对话问答、预训练语言模型与多模态内容理解,目前为...