在LLMDoc评估中,mPLUG-DocOwl的表现显著优于其他模型。具体优势包括: 更高的准确率:在LLMDoc的100个测试样本中,mPLUG-DocOwl有37个响应被评为“A”,这是所有参与评估模型中最高的比例,表明其在多样化文档场景中具有更强的理解能力。 更好的泛化能力:尽管没有对每个数据集进行微调,mPLUG-DocOwl在DUE-Benchmark...
DocOwl2在以更少视觉token、更快的首包时间的前提下达到了多页文档理解的SOTA效果。 同时,在单页文档理解任务上,相比相似训练数据和模型结构的DocOwl1.5,DocOwl2缩减了>80%的token,维持了>90%的性能。即使相比当下最优的MLLM,DocOw...
我们的DocOwl 1.5在所有10个基准测试中的表现都优于特定领域的模型和类似大小的MLLMs。这验证了DocOwl 1.5在跨越5个领域的视觉文档理解上更为强大,涵盖了视觉问答、信息检索、自然语言推理和图像字幕任务。此外,使用更少的非自然数据(3M vs 9M)和参数(8.1B vs 17.3B),DocOwl 1.5在InfoVQA和ChartQA上的表现超...
结果显示,DocOwl2在多页文档理解任务中设定了新的最先进水平,并且在首个标记延迟方面实现了超过50%的减少,证明了其在多页问答、带证据页的解释以及跨页结构理解方面的先进能力。此外,与在类似数据上训练的单图像MLLMs相比,我们的DocOwl2在单页理解性能上具有可比性,但视觉标记数量减少了80%以上。 通过这些实验和基...
阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。 话不多说,先来看效果。 复杂结构的图表一键识别转换为Markdown格式: 不同样式的图表都可以: 更细节的文字识别和定位也能轻松搞定: ...
mPLUG-DocOwl 1.5是目前在多模态文档领域最强的7B左右多模态大模型,具备多种类型文档图片的结构化解析能力,文字识别和定位能力以及指令遵循和详细解释能力,大幅度提升了开源大模型的通用文档理解性能。不过其距离闭源大模型仍然有较大差距,在自然场景中文字识别、数学计算等方面仍然有进步空间。mPLUG团队会进一步优化Doc...
DocOwl 1.5提出统一结构学习,将多个bechmark的开源效果提升超过10个点,成为多模态大模型在文档理解方面的主要对比基准。 随着文档图片的分辨率以及切图数量的不断增加,开源多模态大模型的文档理解性能有了显著提升,然而这也导致视觉特征在大模型解码时占用了过多的视觉token,造成了过高的显存占用以及过长的首包时间。
1月17日晚7点,智猩猩推出「多模态大模型线上闭门会」。本次闭门会由阿里巴巴通义实验室 NLP 高级算法专家严明参与出品,并聚焦于大语言模型工具调用 ControlLLM、长视频理解视觉语言模型 LLaMA-VID和多模态文档理解大模型 mPLUG-DocOwl。 出品人严明的主要研究方向为对话问答、预训练语言模型与多模态内容理解,目前为...
总结 mPLUG-DocOwl是既GPT-4后首个具备视觉文档理解能力的多模态大语言模型,通过文档类数据的指令微调,它让多模态模型mPLUG-Owl具备了理解文档图片的能力。实验也表明它不仅具备卓越的性能,还具有很强的泛化和指令理解能力。
mPLUG-DocOwl 1.5是目前在多模态文档领域最强的7B左右多模态大模型,具备多种类型文档图片的结构化解析能力,文字识别和定位能力以及指令遵循和详细解释能力,大幅度提升了开源大模型的通用文档理解性能。不过其距离闭源大模型仍然有较大差距,在自然场景中文字...