此外,MiniCPM-V 2.0 在 OCR 综合能力榜单 OCRBench 上刷新开源模型 SOTA 表现;还在场景图片文字识别榜单 TextVQA 上超越全系 13B 量级通用模型,其中文字理解表现越级比肩了业界王者谷歌 Gemini Pro,让我们惊叹它的进化之快。评测数据如此之强,让 MiniCPM-V 2.0 面对一系列 OCR 场景经典难题时毫无压力。传...
为了进行评估,我们利用三个以场景文本为中心的 VQA 数据集:STVQA49、TextVQA30和 OCRVQA50;三个面向文档的 VQA 数据集:DocVQA33、InfoVQA51和 ChartQA34;以及三个关键信息提取(KIE)数据集:FUNSD52、SROIE53和 POIE54。 为了提供全面的性能评估,我们还结合 OCRBench12来生成总体分数。 Refer to caption 图5: ...
此外,MiniCPM-V 2.0 在 OCR 综合能力榜单 OCRBench 上刷新开源模型 SOTA 表现;还在场景图片文字识别榜单 TextVQA 上超越全系 13B 量级通用模型,其中文字理解表现越级比肩了业界王者谷歌 Gemini Pro,让我们惊叹它的进化之快。评测数据如此之强,让 MiniCPM-V 2.0 面对一系列 OCR 场景经典难题时毫无压力。
此外,MiniCPM-V 2.0 在 OCR 综合能力榜单 OCRBench 上刷新开源模型 SOTA 表现;还在场景图片文字识别榜单 TextVQA 上超越全系 13B 量级通用模型,其中文字理解表现越级比肩了业界王者谷歌 Gemini Pro,让我们惊叹它的进化之快。 评测数据如此之强,让 MiniCPM-V 2.0 面对一系列 OCR 场景经典难题时毫无压力。传统大...
此外,MiniCPM-V 2.0在OCR综合能力榜单OCRBench上刷新开源模型SOTA表现;还在场景图片文字识别榜单TextVQA上超越全系13B量级通用模型,其中文字理解表现越级比肩了业界王者谷歌Gemini Pro,让我们惊叹它的进化之快。 评测数据如此之强,让MiniCPM-V 2.0面对一系列OCR场景经典难题时毫无压力。传统大模型只能处理448×448像素固...
此外,MiniCPM-V 2.0 在 OCR 综合能力榜单 OCRBench 上刷新开源模型 SOTA 表现;还在场景图片文字识别榜单 TextVQA 上超越全系 13B 量级通用模型,其中文字理解表现越级比肩了业界王者谷歌 Gemini Pro,让我们惊叹它的进化之快。 评测数据如此之强,让 MiniCPM-V 2.0 面对一系列 OCR 场景经典难题时毫无压力。传统大...
此外,MiniCPM-V 2.0 在 OCR 综合能力榜单 OCRBench 上刷新开源模型 SOTA 表现;还在场景图片文字识别榜单 TextVQA 上超越全系 13B 量级通用模型,其中文字理解表现越级比肩了业界王者谷歌 Gemini Pro,让我们惊叹它的进化之快。 评测数据如此之强,让 MiniCPM-V 2.0 面对一系列 OCR 场景经典难题时毫无压力。传统大...
此外,MiniCPM-V 2.0 在 OCR 综合能力榜单 OCRBench 上刷新开源模型 SOTA 表现;还在场景图片文字识别榜单 TextVQA 上超越全系 13B 量级通用模型,其中文字理解表现越级比肩了业界王者谷歌 Gemini Pro,让我们惊叹它的进化之快。 评测数据如此之强,让 MiniCPM-V 2.0 面对一系列 OCR 场景经典难题时毫无压力。传统大...
在OCR综合能力方面,MiniCPM-V 2.0以"小钢炮"系列的"以小博大"传统,在权威OCRBench榜单上刷新了开源模型的最佳成绩。在场景图片文字识别的TextVQA榜单上,它越级超越了全系13B级通用模型,部分能力甚至媲美代表性的Gemini Pro。 新一代MiniCPM-V 2.0还加速解锁了过去难以识别的高清图像信息,如街景、长图等典型场景。
此外,MiniCPM-V 2.0 在 OCR 综合能力榜单 OCRBench 上刷新开源模型 SOTA 表现;还在场景图片文字识别榜单 TextVQA 上超越全系 13B 量级通用模型,其中文字理解表现越级比肩了业界王者谷歌 Gemini Pro,让我们惊叹它的进化之快。 评测数据如此之强,让 MiniCPM-V 2.0 面对一系列 OCR 场景经典难题时毫无压力。传统大...