因此,基于DocOwl 1.5(Hu et al., 2024)的架构,我们提出了mPLUG-DocOwl2,将其放置在其V2T模块之后:H-Reducer。为了充分利用压缩方法,我们的模型DocOwl2采用三阶段框架进行训练:单图像预训练、多图像继续预训练和多任务微调,以支持单图像和多图像/帧理解。我们在单页和多页文档基准测试上的实验证明了DocOwl2在
mPLUG-DocOwl 2聚焦多页文档理解,在大幅缩减单页视觉token的前提下实现了多页文档理解的SOTA效果,兼顾效果和效率,验证了当下多模态大模型对于文档图片的视觉表征存在冗余和资源的浪费。 mPLUG团队会持续优化DocOwl在多页文档理解上的能力并进行开源,同时希望更多的研究人员关注到多模态大模型对于高清文档图片的冗余编码...
DocOwl2在以更少视觉token、更快的首包时间的前提下达到了多页文档理解的SOTA效果。 同时,在单页文档理解任务上,相比相似训练数据和模型结构的DocOwl1.5,DocOwl2缩减了>80%的token,维持了>90%的性能。即使相比当下最优的MLLM,DocOw...
DocOwl2模型是为了解决多页文档理解中的挑战而设计的,特别是在处理高分辨率文档图像时,传统的多模态大型语言模型(MLLMs)往往需要生成大量的视觉令牌,这不仅消耗大量GPU内存,还会导致推理速度变慢。为了优化这一过程,DocOwl2采用了一种高效的压缩模块,即高分辨率DocCompressor,以及一个三阶段的训练框架,包括单图像预训练...
arxiv:https://arxiv.org/abs/2409.03420GitHub:https://github.com/X-PLUG/mPLUG-DocOwl, 视频播放量 433、弹幕量 0、点赞数 16、投硬币枚数 10、收藏人数 46、转发人数 6, 视频作者 以往的月, 作者简介 分享一些大模型前沿的论文和进展,一起学习交流!微信ms1148049756
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding - release DocOwl2 model and inference code · X-PLUG/mPLUG-DocOwl@457327e
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding - release DocOwl2, training data, inferene and evaluation code · Worker-AGI/mPLUG-DocOwl@fc890c9
近日,阿里巴巴的mPLUG团队在多页文档理解领域取得了突破性进展,其新发布的多模态大模型mPLUG-DocOwl2不仅实现了最新的SOTA(State of the Art)成绩,还在视觉token的使用上实现了显著的优化。这一创新成果展现了AI在文档解析和理解技术中的巨大潜力,开启了文档数字化处理的新篇章。
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding - release DocOwl2, training data, inferene and evaluation code · Worker-AGI/mPLUG-DocOwl@fab2fd7
sys.path.append('/nas-alinlp/anwenhu/code/mPLUG_github/mPLUG-DocOwl2/evaluation') print(sys.path) import re from evaluator import doc_evaluate import os from tqdm import tqdm import random from pathlib import Path def parser_line(line): image = line['image'][0] assert len(line['messag...