OCR-VQAocr-vqa.github.io/ 前不久看了一个2020年文档图像分析与识别前沿理论与应用研讨会的视频,金老师在展望中提到了OCR和NLP结合的新的研究方向Text VQA,还说了如果只是把文档中的字识别出来是没什么用的,更重要的是从中发现有意义的东西(需要理解文本)。感觉这个是个很有意思并且有意义的问题,于是最近准...
然而,目前没有一个VQA方法利用图像中经常出现的文本。这些 "图像中的文本 "提供了额外的有用线索,并促进了对视觉内容的更好理解。在本文中,我们介绍了一个通过阅读图像中的文字,即通过光学字符识别或OCR来回答视觉问题的新任务。我们把这个问题称为OCR-VQA。为了便于系统地研究这个新问题,我们引入了一个大型数据集...
尽管这些模型在某些任务上实现了统一,但在 OCR 领域的多数任务上仍难以达成全面整合。 例如,Monkey 等视觉语言模型(VLM)擅长文字检测、识别和视觉问答(VQA)等文本模态生成任务,却无法胜任文字图像的生成、抹除和编辑等图像模态生成任务。...
/ocr-vqa. (2) GitHub - anisha2102/docvqa: Document Visual Question Answering. https://github.com/anisha2102/docvqa. (3) VQA: Visual Question Answering. https://visualqa.org/. (4) allenai/aokvqa: Official repository for the A-OKVQA dataset - GitHub. https://github.com/allenai/aokvqa...
https://github.com/ocrmypdf/OCRmyPDF.git Umi-OCR 基于PaddleOCR 实现的一款开源的文字识别工具, 一般开源项目,识别率肯定没有商用的那么高,只有通过训练自己的字库来提高识别率。文字识别场景,有时候就会涉及到图片处理,这里又会关联到其它强大的图像处理开源项目,如:OpenCV。这些项目中,PaddleOCR相对来说会更符合...
This is the repository of theOCRBench&OCRBench v2. OCRBenchis a comprehensive evaluation benchmark designed to assess the OCR capabilities of Large Multimodal Models. It comprises five components: Text Recognition, SceneText-Centric VQA, Document-Oriented VQA, Key Information Extraction, and Handwritt...
1. 为 Reasoning 让路必然导致 image token 数量过多,进而导致在纯 OCR 任务上存在 bottle-neck。Reasoning(VQA-like)能力来自 LLM(decoder),要想获得更好的 VQA 能力(至少在刷点上),就要充分利用起 LLM 来,那么 image token 就得越像 text token(至少高维上,这样就会让 LLM 更舒服)。
例如,Monkey等视觉语言模型(VLM)擅长文字检测、识别和视觉问答(VQA)等文本模态生成任务,却无法胜任文字图像的生成、抹除和编辑等图像模态生成任务。反之,以 AnyText 为代表的基于扩散模型的图像生成模型则专注于图像创建。因此,OCR领域亟需一个能够统一多模态生成的大模型。
https://github.com/ocrmypdf/OCRmyPDF.git Umi-OCR 基于 PaddleOCR 实现的一款开源的文字识别工具, 一般开源项目,识别率肯定没有商用的那么高,只有通过训练自己的字库来提高识别率。文字识别场景,有时候就会涉及到图片处理,这里又会关联到其它强大的图像处理开源项目,如:OpenCV。这些项目中,PaddleOCR...
正是因为深知GOT以及OCR-2.0的潜力,我们希望通过开源GOT吸引更多的人,放弃VQA,再次投向强感知。都说纯OCR容易背锅,但也正好说明做的不够work,不是吗? GOT: Towards OCR-2.0 通用OCR模型须要够通用,体现在输入输出都要通用上。 GOT的通用具体表现为:在输入方面,模型支持Scene Text OCR、Document OCR、Fine-grained...