我们的模型DocOwl 1.5在10个视觉文档理解基准测试中实现了最先进的性能,在5/10的基准测试中将类似大小的7B LLM的SOTA性能提高了10多分。代码、模型和数据集地址 https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5 1 引言 利用大型语言模型(LLM)强大的语言理解和生成能力,一些最近的工作
最近,许多多模态大型语言模型被提出以无OCR的方式执行视觉文档理解。mPLUG-DocOwl(Ye et al., 2023a)和UReader(Ye et al., 2023b)首先提出将5种类型的文档图像中的不同任务统一到seq-to-seq格式中。 为了在高分辨率图像中编码丰富的文本信息,UReader(Ye et al., 2023b)提出了一个形状自适应裁剪模块,将...
mPLUG-DocOwl 2聚焦多页文档理解,在大幅缩减单页视觉token的前提下实现了多页文档理解的SOTA效果,兼顾效果和效率,验证了当下多模态大模型对于文档图片的视觉表征存在冗余和资源的浪费。 mPLUG团队会持续优化DocOwl在多页文档理解上的能力...
mPLUG-DocOwl 1.5 是阿里巴巴mPLUG团队在多模态文档图片理解领域的最新开源工作,在10个文档理解benchmark上达到最优效果,5个数据集上提升超过10个点,部分数据集上超过智谱17.3B的CogAgent,在DocVQA上达到82.2的效果。 github: https://github.com/X-PLUG/mPLUG-DocOwl arxiv: http://arxiv.org/abs/2403.12895 ...
总结 mPLUG-DocOwl是既GPT-4后首个具备视觉文档理解能力的多模态大语言模型,通过文档类数据的指令微调,它让多模态模型mPLUG-Owl具备了理解文档图片的能力。实验也表明它不仅具备卓越的性能,还具有很强的泛化和指令理解能力。
mPLUG-DocOwl 1.5 是阿里巴巴mPLUG团队在多模态文档图片理解领域的最新开源工作,在10个文档理解benchmark上达到最优效果,5个数据集上提升超过10个点,部分数据集上超过智谱17.3B的CogAgent,在DocVQA上达到82.2的效果。 github: https://github.com/X-PLU...
例如,mPLUG-DocOwl2模型采用了一种高分辨率文档压缩器,通过跨注意力机制,以全局低分辨率视觉特征为指导,将文档图像压缩成324个视觉标记。这种方法不仅显著减少了GPU内存的使用和推理时间,而且在多页文档理解基准测试中设定了新的最高标准。 此外,为了进一步提升模型的多页文档理解能力,研究人员还开发了三阶段训练框架,...
mPLUG-DocOwl1.5版本进一步通过统一的结构学习,利用视觉语言对齐结构HReducer,更好地保持视觉特征空间位置关系并降低特征数量,同时进行结构感知的文字解析和多粒度文字识别定位,显著提升多模态文档理解效果。在实验中,mPLUG-DocOwl在多个任务上表现出色,在与其他无OCR方法对比时,在多种类型的视觉语言理解任务上取得了有...
该报告由阿里巴巴通义实验室高级算法专家徐海洋在“AI+研发数字峰会”上发表,主要介绍了多模态文档大模型mPLUG-DocOwl相关内容,涵盖背景、模型工作、开源实战以及总结展望。 1. 多模态文档大模型背景:富含文字的图片在生活中广泛存在,通用多模态大模型应具备文档图片理解能力,如GPT4V能理解表格和图片内容并作答 。多...
2023.7mPLUG-D9c9wl/UReader:无参数的形状适应的切图模块,EMNLP2023文档相关的任务形式很多样,包括信息抽取,问答和自然语言推理等,涉及文字识别和语义理解等不同层次; 2023.7mPLUG-DocOwl/UReader:多任务联合学习,EMNLP2023文档图片在结构布局方面十分复杂多样化,其对于文档语义理解十分关键:2024.3mPLUG-DocQwl1.5:统一...