OCR业务其实有特殊性,用户的需求很难通过一个通用模型来满足,之前开源的Chineseocr_Lite也是不支持用户训练的。为了方便开发者使用自己的数据自定义超轻量模型,除了8.6M超轻量模型外,PaddleOCR同时提供了2种文本检测算法(EAST、DB)、4种文本识别算法(CRNN、Rosseta、STAR-Net、RARE),基本可以覆盖常见OCR任务的...
PaddleOCR是一个与OCR相关的开源项目,不仅支持超轻量级中文OCR预测模型,总模型仅8.6M(单模型支持中英文数字组合识别、竖排文本识别、长文本识别,其中检测模型DB(4.1M)+识别模型CRNN(4.5M)),而且提供多种文本检测训练算法(EAST、DB)和多种文本识别训练算法(Rosetta、CRNN、STAR-Net、RARE)。 Github地址 https://gi...
(5)识别模型优化3:Enhanced CTC loss 改进。考虑到中文OCR任务经常遇到的识别难点是相似字符数太多,容易误识,借鉴Metric Learning的想法,引入Center Loss,进一步增大类间距离。实验表明,使用Enhanced CTC loss 改进,识别准确率可以进一步提升0.9%。 以下三行命令可以在Linux的CPU上快速体验PP-OCRv2: # 安装Paddle和Padd...
3.5M超轻量模型应用了一套超轻量OCR系统PP-OCR,主要由DB文本检测、检测框矫正和CRNN文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化8个方面,采用19个有效策略,对各个模块的模型进行效果调优和瘦身,最终得到整体大小为...
Code:https://github.com/ankush-me/SynthText(英文版)Code https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版) 八、Synthetic Word Dataset 合成文本识别数据集,包含9百万张图像,涵盖了9万个英语单词。文件大小为10GB http://www.robots.ox.ac.uk/~vgg/data/text/ ...
可直接使用的模型 cnocr的ocr模型可以分为两阶段:第一阶段是获得ocr图片的局部编码向量,第二部分是对局部编码向量进行序列学习,获得序列编码向量。目前两个阶段分别包含以下的模型: 局部编码模型(emb model) conv :多层的卷积网络; conv-lite :更小的多层卷积网络; ...
近日,百度飞桨正式开源了业界最小的超轻量8.6M中英文识别OCR模型套件PaddleOCR,在模型大小、精度和预测速度上,甚至超过了之前一度登上GitHub热榜的chineseocr_lite(5.1k stars),简单场景下OCR效果更是能媲美收费软件。 除了性能优越之外,百度PaddleOCR还是第一个完整支持从训练到部署完整流程的OCR模型套件,而且部署方式...
想要试试中文 OCR?这个项目可以考虑,轻量模型,不需要 GPU 也能跑得动。 光学字符识别(OCR)现在已经有很广泛的应用了,很多开源项目都会嵌入已有的 OCR 项目来扩展能力,例如 12306 开源抢票软件,它就会调用其它开源 OCR 服务来识别验证码。很多流行的开源项目,其背后或多或少都会出现 OCR 的身影。
基于最流行的CRNN识别单行文本,网上也有不少大佬们的项目,也提供了对应的模型,本项目旨在推广通用图像分类训练框架,希望大家对他的用途不仅仅是用来识别验证码,它能有更大的作用。 CRNN 笔者使用的网络为笔者框架内置的CNNX+GRU+CTC组合,其实效果都大同小异。网上使用VGG的众多,其实对于中文文档类的简单场景OCR,可...
效果更好的大模型同步开源 除了上述超轻量模型,PaddleOCR同时开源了相应大模型——通用中文OCR模型,可以达到更好的识别效果,给用户提供多种选择。大模型的基础算法与超轻量模型一致:检测模型基于DB算法,识别模型基于CRNN算法,不同的是,检测模型骨干网络换成resnet50_vd[8],识别模型骨干网络换成resnet34_vd[8],模...