首先,需要澄清的是,虽然直接提及“GPT-4V”可能是一个概念上的简化(目前官方并未直接命名此类多模态版本为GPT-4V),但我们可以将其视为GPT-4在视觉任务上的一种应用拓展。GPT-4通过引入图像输入,结合其强大的语言模型,实现了对图像中文字信息的初步理解和识别,这一过程我们可以形象地称之为“GPT-4V”的OCR实践。
GPT-4V,还存在着OCR偏差警报:与其他三种语言相比,它在图像中的英语和法语文本识别上,表现更佳。下图左边的漫画是中文,GPT-4V识别得牛头不对马嘴,但同样的话改成英文,GPT-4V就一字不差地准确识别出来了。类似地,在下图中,GPT-4V认起中文来也十分捉急。「考试不会」会认成「考虑不周」,「被扣分」认...
许多项目正在努力扩展LLMs的多模态能力,包括BLIP-2、OpenFlamingo、LLaVA、MiniGPT4和mPLUG-Owl。特别是最近发布的GPT-4V(ision)在LMM领域取得了重要突破。 官方报告定性地展示了GPT-4V在几个OCR相关任务(包括文本识别、表达式识别和文档理解)中的能力,但迫切需要定量评估和深入分析,这将为未来的研究提供有价值的见...
此外,在 OCRBench上,MiniCPM-V 2.6 OCR 性能实现开源+闭源模型 SOTA,而在幻觉评测榜单 Object HalBench 上,MiniCPM-V 2.6 的幻觉水平(幻觉率越低越好)也优于GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型。Obiect HalBench(左) OCRBench(右)面壁认为,MiniCPM-V 2.6 之所以能实现从单一...
当然,在中文 OCR 场景任务的表现上,MiniCPM-V 2.0 超越了 GPT-4V,能后者之所不能。面壁智能将「小」做到极致,推出了一款体量更小的模型 ——MiniCPM-1.2B,号称「小小钢炮」。模型参数虽然较上一代 2.4B 模型减少了一半,但仍保留了其 87% 的综合性能。同样用数据说话,在 C-Eval、CMMLU、MMLU 等...
原因在于低分辨率图像中的模糊内容可能会阻止 LMMs 准确识别具有挑战性的细粒度目标和 OCR 字符。 在计算效率和可拓展性上,LLaVA-UHD 仅使用 94% 的推理计算即支持任意宽高比的 672×1088 分辨率图像,能够适应更大分辨率的拓展。 为了更直...
表现最佳的 GPT-4V 模型达到了 49.9% 的准确率,但这与人类的 60.3% 表现相比还有显著差距。其次是 Bard 模型,准确率为 34.8%,而目前最好的开源模型 LLaVA 的准确率则为 26.1%。这些数据表明,大型模型在视觉背景下的数学推理能力还有很大的提升空间。有趣的是,当结合图像 OCR 和 Captioning 信息时,...
项目简介 微软为了克服这些障碍,推出了 OmniParser,是一种纯视觉基础的工具,旨在填补当前屏幕解析技术中的空白。该工具并不需要依赖额外的上下文数据,可以理解更复杂的图形用户界面(GUI),是智能 GUI 自动化领域的一项令人兴奋的进展。OmniParser 结合可交互区域检测模型、图标描述模型和 OCR 模块等,不需要 HTML ...
GPT-4V缺乏理解医疗图像上标注的知识 这点是接着OCR说的,很多时候它可以做OCR,也可以做的很好,但最后却不知道这些字写在那里意味着什么,比如图像上标记了两条线都在衡量同一个阴影的大小(长短轴),它会把量出来的尺寸很好的OCR出来,但它不会意识到这个是在量同一个阴影,转而可能会认为这是两个独立的数字在分...
当然,在中文 OCR 场景任务的表现上,MiniCPM-V 2.0 超越了 GPT-4V,能后者之所不能。面壁智能将「小」做到极致,推出了一款体量更小的模型 ——MiniCPM-1.2B,号称「小小钢炮」。模型参数虽然较上一代 2.4B 模型减少了一半,但仍保留了其 87% 的综合性能。同样用数据说话,在 C-Eval、CMMLU、MMLU 等...