DocOwl2在以更少视觉token、更快的首包时间的前提下达到了多页文档理解的SOTA效果。 同时,在单页文档理解任务上,相比相似训练数据和模型结构的DocOwl1.5,DocOwl2缩减了>80%的token,维持了>90%的性能。即使相比当下最优的MLLM,DocOw...
为了平衡多页文档理解场景中的问答效果和资源消耗,阿里巴巴通义实验室mPLUG团队近期提出mPLUG-DocOwl2,具备多页文字解析,多页文档问答以及多页论文结构解析等能力,在多页文档理解benchmark上达到OCR-free的新SOTA,并且每页文档图片仅消耗324token,首包时间降低50%,单个A100-80G最多能放下60张高清文档图片。 arxiv:...
在LLMDoc评估中,mPLUG-DocOwl的表现显著优于其他模型。具体优势包括: 更高的准确率:在LLMDoc的100个测试样本中,mPLUG-DocOwl有37个响应被评为“A”,这是所有参与评估模型中最高的比例,表明其在多样化文档场景中具有更强的理解能力。 更好的泛化能力:尽管没有对每个数据集进行微调,mPLUG-DocOwl在DUE-Benchmark...
总的来说,本文从最近发布的7B最强多模态文档理解大模型mPLUG-DocOwl 1.5出发,总结了不依赖OCR的情况下,进行多模态文档理解的关键四个关键挑战(“高分辨率图片文字识别”,“通用文档结构理解”,“指令遵循”, “外部知识引入” )和阿里巴巴mPLUG团队给出的解决方案。 尽管mPLUG-DocOwl 1.5大幅提升了开源模型的文档...
为了充分利用这种压缩方法,我们开发了DocOwl2模型,并在三阶段训练框架下进行训练:单图像预训练、多图像连续预训练和多任务微调。这种训练策略旨在平衡标记效率和问答性能,从而加强多页文档理解能力。 3. 基准测试 我们在单页和多页文档理解基准测试中对DocOwl2进行了测试。结果显示,DocOwl2在多页文档理解任务中设定了...
mPLUG-DocOwl 1.5是目前在多模态文档领域最强的7B左右多模态大模型,具备多种类型文档图片的结构化解析能力,文字识别和定位能力以及指令遵循和详细解释能力,大幅度提升了开源大模型的通用文档理解性能。不过其距离闭源大模型仍然有较大差距,在自然场景中文字识别、数学计算等方面仍然有进步空间。mPLUG团队会进一步优化Doc...
阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。 话不多说,先来看效果。 复杂结构的图表一键识别转换为Markdown格式: 不同样式的图表都可以: 更细节的文字识别和定位也能轻松搞定: ...
最近,阿里巴巴的 AI 研究团队在文档理解领域取得了令人瞩目的进展,他们推出了 mPLUG-DocOwl1.5,这是一款在无OCR(光学字符识别)文档理解任务上表现卓越的尖端模型。 过去,处理文档理解任务时,我们通常依赖 OCR 技术来从图像中提取文本,但这往往会受到复杂布局和视觉噪声的困扰。而 mPLUG-DocOwl1.5则通过一种全新的统...
mPLUG-DocOwl 1.5是目前在多模态文档领域最强的7B左右多模态大模型,具备多种类型文档图片的结构化解析能力,文字识别和定位能力以及指令遵循和详细解释能力,大幅度提升了开源大模型的通用文档理解性能。不过其距离闭源大模型仍然有较大差距,在自然场景中文字...
总结 mPLUG-DocOwl是既GPT-4后首个具备视觉文档理解能力的多模态大语言模型,通过文档类数据的指令微调,它让多模态模型mPLUG-Owl具备了理解文档图片的能力。实验也表明它不仅具备卓越的性能,还具有很强的泛化和指令理解能力。