在ssd中,每一个特征图的每一个像素会生成多个default box,但是在seglink中,只有一个宽高比为1的default box。 links分为Within-Layer Link和Cross-Layer Link,分别表示特征图内和跨特征图的segment是否应该相连。 每个link有两个分数,一个用是正分,一个是负分,正分用来表示二者是否属于同一个单词;负分表示二者是...
SegLink算法的创新之处在于同时检测片段和链接,并通过学习片段之间的连接关系来表示是否属于同一文本行或单词。这种策略使得SegLink能够有效地处理复杂场景下的文本检测问题,如角度倾斜、文本变形等。 此外,SegLink算法还具有以下优势: 多方向检测:能够检测具有旋转角度的文本,适用于自然场景中的多方向文本检测。 多尺度检测...
CTPN、SegLink与EAST作为OCR技术中的主流文本检测方法,各有其独特的技术特点和优势。CTPN通过结合CNN与LSTM,实现了对复杂场景下横向分布文本的有效检测;SegLink通过局部检测与连接的策略,解决了多方向、多尺度文本的检测问题;而EAST则以其端到端的检测方式和多尺度特征融合的能力,展现了高效准确的文本检测性能。在实际应...
SegLink模型的网络结构如下: 该模型以VGG16作为网络的主要骨干,将其中的全连接层(fc6, fc7)替换成卷积层(conv6, conv7),后面再接上4个卷积层(conv8, conv9, conv10, conv11),其中,将conv4_3,conv7,conv8_2,conv9_2,conv10_2,conv11这6个层的feature map(特征图)拿出来做卷积得到segments(切片)和l...
在光学字符识别(OCR)领域,文本检测是一项至关重要的任务。然而,在自然场景中,如街道广告牌、产品包装盒等,文本往往以各种复杂的形式出现,包括不同的角度、大小和形状,这给文本检测带来了极大的挑战。为了应对这些挑战,OCR文本检测模型SegLink应运而生,以其独特的
文本检测之SegLink 核心idea是将文本分成两个元素,一个成为segment一个称为link。segment是一个覆盖文字的框,link是接两个segment,指示他们是否属于同一个词或者行。 摘要 目前比较先进的文字识别方法都是针对水平拉丁文字,并且速度上不够快。在这里我们引入了一个seglink-一个旋转文字识别方法。这个方法的主要思想是将...
本文简要介绍Pattern Recognition 2019论文“SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping”的主要工作。该论文提出一种对文字实例敏感的自下而上的文字检测方法,解决了自然场景中密集文本和不规则文本的检测问题。该论文提出的Instance-aware Component Grouping(ICG)方...
SegLink Detecting Oriented Text in Natural Images by Linking Segments 本文在SSD基础上提出segment+link的方式着重解决文本大长宽比的问题(而textboxes为了解决word具有的大大宽高比,定义了6种宽高比的default box,并且加入了两种垂直方向偏移,意味着12种default box)。
SegLink将检测文本行的任务分解为检测segment和link的两个小任务,依然是采用了SSD结构,重点是改变了网络的输出,即数据的表现形式,然后融合两个小任务的结果最终输出文本行。完整结构如图4。 图4 SegLink网络结构。网络由卷积特征层(显示为灰色块)和卷积预测器(灰色细箭头)组成。卷积滤波器的格式为"(#filters),k(ker...
https://github.com/dengdan/se...但是大神做的是python2 + opencv 2,跟我需要的版本不符合,所以需要改很多内容,调试也是一把辛酸泪,这里把python 3版的seglink调试过程写一下,让大家以后少走弯路。 1.环境配置 我是pycharm + anaconda, 这一套可以为每个工程配置一个virtualenv,不需要自己再费心费力的配置vir...