DocOwl2在以更少视觉token、更快的首包时间的前提下达到了多页文档理解的SOTA效果。 同时,在单页文档理解任务上,相比相似训练数据和模型结构的DocOwl1.5,DocOwl2缩减了>80%的token,维持了>90%的性能。即使相比当下最优的MLLM,DocOw...
DocOwl 1.5延续该团队前序工作DocOwl以及UReader处理高分辨率文档图片的方式,采用一个形状适应的切图模块将高分辨率图片切为多个大小一致的子图。为了更好的将图片的文字布局信息传递给LLM,同时避免在处理高分辨率文档图片时视觉特征过长,DocOwl 1.5提出来一个基于卷积的连接结构H-Reducer,其在水平方向上混合4个视觉特征...
为了平衡多页文档理解场景中的问答效果和资源消耗,阿里巴巴通义实验室mPLUG团队近期提出mPLUG-DocOwl2,具备多页文字解析,多页文档问答以及多页论文结构解析等能力,在多页文档理解benchmark上达到OCR-free的新SOTA,并且每页文档图片仅消耗324token,首包时间降低50%,单个A100-80G最多能放下60张高清文档图片。 arxiv:...
从mPLUG-Owl2[58]初始化的,使用ViT/L-14[12]作为视觉编码器,使用7B大型语言模型和模态自适应模块MAM作为语言解码器。 每张图像根据纵横比和分辨率,被裁剪成9个子图像,固定分辨率为448x448,通过ViT编码为1024的特征,再由H-reducer降维到256。 The model is trained with 12,000 iterations on DocStruct4M, with...
DocOwl 1.5提出统一结构学习,将多个bechmark的开源效果提升超过10个点,成为多模态大模型在文档理解方面的主要对比基准。 随着文档图片的分辨率以及切图数量的不断增加,开源多模态大模型的文档理解性能有了显著提升,然而这也导致视觉特征在大模型解码时占用了过多的视觉token,造成了过高的显存占用以及过长的首包时间。
阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。 话不多说,先来看效果。 复杂结构的图表一键识别转换为Markdown格式: 不同样式的图表都可以: 更细节的文字识别和定位也能轻松搞定: ...
mPLUG-DocOwl是在mPLUG-Owl的基础上将6种类型的图片汇总成了一个统一范式的Instruction Tuning数据集。在这个基础上做进一步的指令微调,这使得模型即能识别文档,也能理解用户指令和意图,并做出自由回复。 实验结果表明mPLUG-DocOwl已经比肩甚至超越了文档专用模型Donut和Pix2Struct。
阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式,到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯,再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。
在此背景下,两篇研究工作在同一时间提出进一步增强MLMM的文字理解能力,即LLaVAR和mPLUG-DocOwl。尽管侧重点略有不同,但它们都是利用LLM做OCR-free(无需光学字符识别)的文档图片理解的尝试,但仍存在提升空间。LLaVAR通过收集带文字的图片数据集,包括海报、封面、广告、logo等,并进行文字识别,构建了...
总结 mPLUG-DocOwl是既GPT-4后首个具备视觉文档理解能力的多模态大语言模型,通过文档类数据的指令微调,它让多模态模型mPLUG-Owl具备了理解文档图片的能力。实验也表明它不仅具备卓越的性能,还具有很强的泛化和指令理解能力。