项目:mPLUG-DocOwl/DocOwl1.5 at main · X-PLUG/mPLUG-DocOwl · GitHub 来自阿里的文档理解开源大模型,对多模态闭源大模型挑战的一步。 关键点: 1. 跨数据模态(图、表、pdf等)的统一结构学习; 2. H-Reducer:用卷积层聚合水平相邻的视觉特征,更好地保持视觉和语言特征对齐过程中的结构
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding - X-PLUG/mPLUG-DocOwl