mPLUG-DocOwl 1.5是目前在多模态文档领域最强的7B左右多模态大模型,具备多种类型文档图片的结构化解析能力,文字识别和定位能力以及指令遵循和详细解释能力,大幅度提升了开源大模型的通用文档理解性能。不过其距离闭源大模型仍然有较大差距,在自然场景中文字识别、数学计算等方面仍然有进步空间。mPLUG团队会进一步优化Doc...
mPLUG-DocOwl 2聚焦多页文档理解,在大幅缩减单页视觉token的前提下实现了多页文档理解的SOTA效果,兼顾效果和效率,验证了当下多模态大模型对于文档图片的视觉表征存在冗余和资源的浪费。 mPLUG团队会持续优化DocOwl在多页文档理解上的能力...
在这项工作中,通过将文档理解数据纳入指令微调,mPLUG-DocOwl成功地将多样化的OCR-free文档理解能力注入到mPLUG-Owl中。实验结果表明,mPLUG-DocOwl在OCR-free文档理解方面达到了可比甚至更好的性能。此外,得益于语言-only和通用视觉-语言指令调优,mPLUG-DocOwl能够更好地理解用户指令和意图,实现更复杂的交互。然而,...
mPLUG-DocOwl是在mPLUG-Owl的基础上将6种类型的图片汇总成了一个统一范式的Instruction Tuning数据集。在这个基础上做进一步的指令微调,这使得模型即能识别文档,也能理解用户指令和意图,并做出自由回复。 实验结果表明mPLUG-DocOwl已经比肩甚至超越了文档专用模型Donut和Pix2Struct。 模型在各类图片类型上都能有良好的...
mPLUG团队 投稿 量子位 | 公众号 QbitAI 多模态文档理解能力新SOTA! 阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。 话不多说,先来看效果。 复杂结构的图表一键识别转换为Markdown格式: ...
例如,mPLUG-DocOwl2模型采用了一种高分辨率文档压缩器,通过跨注意力机制,以全局低分辨率视觉特征为指导,将文档图像压缩成324个视觉标记。这种方法不仅显著减少了GPU内存的使用和推理时间,而且在多页文档理解基准测试中设定了新的最高标准。 此外,为了进一步提升模型的多页文档理解能力,研究人员还开发了三阶段训练框架,...
mPLUG团队 投稿 量子位 | 公众号 QbitAI 多模态文档理解能力新SOTA! 阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。 话不多说,先来看效果。 复杂结构的图表一键识别转换为Markdown格式: ...
mPLUG-DocOwl 1.5是目前在多模态文档领域最强的7B左右多模态大模型,具备多种类型文档图片的结构化解析能力,文字识别和定位能力以及指令遵循和详细解释能力,大幅度提升了开源大模型的通用文档理解性能。不过其距离闭源大模型仍然有较大差距,在自然场景中文字识别、数学计算等方面仍然有进步空间。mPLUG团队会进一步优化Doc...
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding,结构信息对于理解文本丰富的图像(如文档、表格和图表)的语义至关重要。现有的多模态大型语言模型(MLLMs)具备文本识别能力,但缺乏对文本丰富文档图像的通用结构理解能力。本文强调
最近,阿里巴巴的 AI 研究团队在文档理解领域取得了令人瞩目的进展,他们推出了 mPLUG-DocOwl1.5,这是一款在无OCR(光学字符识别)文档理解任务上表现卓越的尖端模型。 过去,处理文档理解任务时,我们通常依赖 OCR 技术来从图像中提取文本,但这往往会受到复杂布局和视觉噪声的困扰。而 mPLUG-DocOwl1.5则通过一种全新的统...