SVTR使用SubSample模块是一个步长为(2,1)核大小为3×3的普通卷积,之所以对高度进行下采样而不对宽度进行下采样,有两个原因:(1)宽维度所包含的文字信息笔记丰富,下采样会造成较多信息的丢失;(2)CTC解码前的Argmax序列输出长度越大,结果越稀疏(包含的空字符越多,CTC解码时连续相同的文字就很大程度上不会被误判掉...
title: SVTR: Scene Text Recognition with a Single Visual Model venue:IJCAI 2022 paper: arxiv.org/abs/2205.0015code: github.com/PaddlePaddle 论文速读 论文试图解决什么问题? 目前的文本识别模型往往采用的是特征提取模型(feature extraction model)+序列模型(sequence model)来解决特征提取和文本转录这两个任...
SVTR 有多个超参数:通道深度、每个阶段 heads 个数、Mixing Block 个数 和 排列次序,通过改变超参数,SVTR 架构模型具备了不同的能力,作者提出了四种典型架构:SVTRT (Tiny), SVTR-S (Small), SVTR-B (Base) and SVTR-L (Large). 3 Experiments 3.1 Datasets 3.2 Implementation Details 3.3 Ablation Study...