与基准数据集中的原始问题相比,DocReason25K中的问题增加了“用详细解释回答问题”的提示。DocReason25K的详细统计信息如表1所示。DocOwl 1.5-Chat通过将下游数据集与DocReason25K结合,并在统一结构学习后执行多任务调整进行训练。 5 实验 5.1 实施细节 DocOwl 1.5从mPLUG-Owl2初始化,使用ViT/L-14作为视觉编码器,...
DocOwl2在以更少视觉token、更快的首包时间的前提下达到了多页文档理解的SOTA效果。 同时,在单页文档理解任务上,相比相似训练数据和模型结构的DocOwl1.5,DocOwl2缩减了>80%的token,维持了>90%的性能。即使相比当下最优的MLLM,DocOw...
mPLUG-DocOwl 1.5 (github: github.com/X-PLUG/mPLUG, arxiv: mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding)是阿里巴巴mPLUG团队在多模态文档图片理解领域的最新开源工作,在10个文档理解benchmark上达到最优效果,5个数据集上提升超过10个点,部分数据集上超过智谱17.3B的Cog...
DocOwl 1.5强调文档图片理解中对于“文档结构”理解的重要性,提出对于所有文字信息丰富的图片进行统一的结构学习。DocOwl 1.5延续该团队前序工作DocOwl以及UReader处理高分辨率文档图片的方式,采用一个形状适应的切图模块将高分辨率图片切为多个大小一致的子图。为了更好的将图片的文字布局信息传递给LLM,同时避免在处理高...
最新多模态大模型mPLUG-DocOwl 2,仅以324个视觉token表示单个文档图片,在多个多页文档问答Benchmark上超越此前SOTA结果。 并且在A100-80G单卡条件下,做到分辨率为1653x2339的文档图片一次性最多支持输入60页! △单个A100-80G最多能支持文档图片(分辨率=1653x2339)的数量以及首包时间 ...
阿里mPLUG团队发布最新开源工作mPLUG-DocOwl 1.5,针对高分辨率图片文字识别、通用文档结构理解、指令遵循、外部知识引入四大挑战,提出了一系列解决方案。 话不多说,先来看效果。 复杂结构的图表一键识别转换为Markdown格式: 不同样式的图表都可以: 更细节的文字识别和定位也能轻松搞定: ...
mPLUG-DocOwl 1.5是目前在多模态文档领域最强的7B左右多模态大模型,具备多种类型文档图片的结构化解析能力,文字识别和定位能力以及指令遵循和详细解释能力,大幅度提升了开源大模型的通用文档理解性能。不过其距离闭源大模型仍然有较大差距,在自然场景中文字...
为了充分利用这种压缩方法,我们开发了DocOwl2模型,并在三阶段训练框架下进行训练:单图像预训练、多图像连续预训练和多任务微调。这种训练策略旨在平衡标记效率和问答性能,从而加强多页文档理解能力。 3. 基准测试 我们在单页和多页文档理解基准测试中对DocOwl2进行了测试。结果显示,DocOwl2在多页文档理解任务中设定了...
最近,阿里巴巴的 AI 研究团队在文档理解领域取得了令人瞩目的进展,他们推出了 mPLUG-DocOwl1.5,这是一款在无OCR(光学字符识别)文档理解任务上表现卓越的尖端模型。 过去,处理文档理解任务时,我们通常依赖 OCR 技术来从图像中提取文本,但这往往会受到复杂布局和视觉噪声的困扰。而 mPLUG-DocOwl1.5则通过一种全新的统...
在此背景下,两篇研究工作在同一时间提出进一步增强MLMM的文字理解能力,即LLaVAR和mPLUG-DocOwl。尽管侧重点略有不同,但它们都是利用LLM做OCR-free(无需光学字符识别)的文档图片理解的尝试,但仍存在提升空间。LLaVAR通过收集带文字的图片数据集,包括海报、封面、广告、logo等,并进行文字识别,构建了...