之前在PaddleOCR GitHub给的例程中,我尝试跑ICDAR2015,一开始出现过这个现象,我就尝试将batch_size调小了,你会发现确实有效果的,我的1200次也跑完了,但是我更换到ICDAR2019-LSVT之后发现,就非常容易崩,我心态也崩了,我甚至将batch_size调到了2,但是他在比较长的一段时间之后发现还是崩了。 我意识到可能这是一个...
ICDAR 2019-LSVT竞赛数据聚焦探索大规模数据场景下深度学习文字识别能力极限,是业界最大的中文场景OCR集合。 ICDAR2019-LSVT数据集源于百度真实应用场景,作为首个提出弱标注数据的场景文字数据集,包括精标注5万张街景图像,40万张弱标注图像,总计45万,数据量是现有公开数据集(ICDAR 2017、ICPR 2018等)的14倍以上。 场...
ICDAR2019-ArT竞赛数据总计10176张,是业界最大的任意形状场景文字集合,聚焦推动自然场景下任意形状文字检测识别能力新突破。 PaddleOCR开源的超轻量和通用版中英文模型,训练数据组成中的中文真实数据集,主要就是上述开源的LSVT数据集,此外,本次SAST算法开源模型total-text指标超过论文指标约4%,主要原因也是由于加入了ArT...
ICDAR2019-ArT竞赛数据总计10176张,是业界最大的任意形状场景文字集合,聚焦推动自然场景下任意形状文字检测识别能力新突破。 PaddleOCR开源的超轻量和通用版中英文模型,训练数据组成中的中文真实数据集,主要就是上述开源的LSVT数据集,此外,本次SAST算法开源模型total-text指标超过论文指标约4%,主要原因也是由于加入了ArT...
ICDAR2019-ArT竞赛数据总计10176张,是业界最大的任意形状场景文字集合,聚焦推动自然场景下任意形状文字检测识别能力新突破。 PaddleOCR开源的超轻量和通用版中英文模型,训练数据组成中的中文真实数据集,主要就是上述开源的LSVT数据集,此外,本次SAST算法开源模型total-text指标超过论文指标约4%,主要原因也是由于加入了ArT...
英文数据集,ICDAR2015 中文数据集,LSVT街景数据集训练数据3w张图片 识别: 英文数据集,MJSynth和SynthText合成数据,数据量上千万。 中文数据集,LSVT街景数据集根据真值将图crop出来,并进行位置校准,总共30w张图像。此外基于LSVT的语料,合成数据500w。 其中,公开数据集都是开源的,用户可自行搜索下载,也可参考中文数据集,...
中文街景文字识别:ICDAR2019-LSVT行识别任务的数据集,共包括29万张图片,其中21万张图片作为训练集(带标注),8万张作为测试集(无标注)。数据集采自中国街景,并由街景图片中的文字行区域(例如店铺标牌、地标等等)截取出来而形成。所有图像都经过一些预处理,将文字区域利用仿射变化,等比映射为一张高为48像素的图片。
1. ICDAR2019-LSVT Data sources:https://ai.baidu.com/broad/introduction?dataset=lsvt Introduction: A total of 45w Chinese street view images, including 5w (2w test + 3w training) fully labeled data (text coordinates + text content), 40w weakly labeled data (text content only), as shown ...
ICDAR2019-ArT In addition to opensource data, users can also use synthesis tools to synthesize data themselves. Current available synthesis tools include text_renderer, SynthText, TextRecognitionDataGenerator, etc. 1. ICDAR2019-LSVT Data sources:https://ai.baidu.com/broad/introduction?dataset=lsvt ...
1、ICDAR2019-LSVT 数据来源:https://ai.baidu.com/broad/introduction?dataset=lsvt 数据简介:共45w中文街景图像,包含5w(2w测试+3w训练)全标注数据(文本坐标+文本内容),40w弱标注数据(仅文本内容),如下图所示: (a) 全标注数据 (b) 弱标注数据 下载地址:https://ai.baidu.com/broad/download?dataset=lsvt ...