简介:ReCTS数据集包括25,000张带标签的图像,训练集包含20,000张图像,测试集包含5,000张图像。这些图像是在不受控制的条件下通过电话摄像机野外采集的。它主要侧重于餐厅招牌上的中文文本...:Bangla 09001 - 10000:Hindi 如下图所示: 7.ICDAR2019-LSVT数据简介:该数据集由45w中文街景图像,包含5w(2w
三大比赛均难度极高,LSVT侧重中英文街景拍摄图,MLT-19侧重多语言的自然场景和文档等,ReCTS侧重商户拍照信息。部分比赛图片展示如下: ICDAR 2019竞赛示例图 LSVT(大规模弱标注街景文字识别)竞赛由百度公司提供约45万张街景图片,街景文字识别可广泛用于智能交通、地图信息扩展、自动驾驶等,数据覆盖了透视畸变、弱监督、低...
作者在Marmot和ICDAR2013表格竞赛数据集上训练,然后在ICDAR2013表格竞赛数据集上进行测试,实验结果也达到了非常好的水平,表格检测和结构识别任务上最好的F1值分别达到96.62%和91.51%,证明了模型的有效性,同时也通过对比实验证明了语义信息和在目标数据集上进一步微调对性能有提升作用。作者最后提出之后可以将行分割任务也...
DIW 2019挑战赛由旷视科技与北京智源人工智能研究院共同举办,该项赛事吸引了包括腾讯、百度、字节跳动等300多支队伍参赛,其所采用的Objects365数据集包含63万张图像,高达1000万人工标注框,覆盖365个日常物体类别,堪称最大通用物体检测数据集。 相比于大家熟知的ImageNet和COCO数据集,Objects365数据集更贴近自然场景,覆盖...
该模型最终在ICDAR2013表格竞赛表格结构识别子任务的数据集上取得了State-of-the-art的效果,预测的单元格对与Ground truth匹配的F1值达到95.26%,并在作者准备的非公开数据集上也达到95.92%的效果,远远超过复现的已有方法和商业软件的性能。 图12 DeepTabstr[15]中引入可变形卷积后的网络结构...
ReCTS端到端文字识别官方排名(Top-10) MLT-19(多语言自然场景文字识别)竞赛由多国学者提供2万张自然场景图片,共有7大类语言(10个小类别),多语言文字识别可广泛应用于拍照翻译、文档识别、交通信息识别等,数据覆盖了跨语种识别、拍照角度多变、低对比度、复杂背景、复杂排版等众多技术难点。比赛包含四个任务:多语...
在文档分析与识别国际会议(ICDAR 2019)举办的多项赛事中,包揽手写数学公式识别挑战赛CROHME(Competition on Recognition of Handwritten Mathematical Expressions)全部两项任务以及场景文本视觉问答挑战赛ST-VQA(Scene Text Visual Question Answering)挑战赛上全部三项任务冠军,此外还取得了街景招牌中文文本识别挑战赛ReCTS(...