PP-LCNet是基于MobileNetV1改进的新的骨干网络,精心设计激活函数、SE模块位置、大的卷积核位置和输出特征优化。对比mobilenetv3,识别准确率可比情况下,CPU上可以加速38%。实验表明,与PP-OCR的文本识别相比,将骨干网络从mv3换成PP-LCNet,识别准确率提升2.6%。 (4)识别模型优化2:U-DML 知识蒸馏策略。U
介绍了一些trick来训练更好的文本检测器和更好的文本识别器,其中包括协作相互学习(CML),一种数据增强方法CopyPaste,轻量级CPU网络(LCNet),统一深度相互学习(U-DML)和增强的CTCLoss。 对真实数据的实验表明,在相同的推理成本下,PP-OCRv2的精度比PP-OCR高7%。它还可以与使用ResNet系列作为骨干的PP-OCR的server模型...
表格识别任务中提出了 SLANet (Structure Location Alignment Network)网络结构,其中包含CPU友好型轻量级骨干网络PP-LCNet,实现更优的“精度-速度”均衡;轻量级高低层特征融合模块CSP-PAN,有效解决尺度变化较大等复杂场景中的模型预测问题结构,表格识别模型精度从0.97%提升至75.68%,预测速度提升10%;结构与位置信息对齐的特...
为了测试PP-LCNet的泛化能力,我们在整个模型设计过程中使用了ImageNet-1k等具有挑战性的数据集。表4显示了PP-LCNet和我们在ImageNet上选择的其他不同轻量级模型之间的精度-速度比较。很明显,PP-LCNet在速度和准确性方面都取得了更好的性能,即使与像MobileNetV3等非常有竞争力的网络相比。 2.4. PP-OCRv2整体性能,Hme...
FGD:兼顾全局与局部特征的模型蒸馏算法▎模块2:表格识别 PP-LCNet:CPU 友好型轻量级骨干网络 CSP-PAN:轻量级高低层特征融合模块 SLAHead:结构与位置信息对齐的特征解码模块▎模块3:关键信息抽取 VI-LayoutXLM:视觉特征无关的多模态预训练模型结构 TB-YX:考虑阅读顺序的文本行排序逻辑 UDML:联合互学习知识蒸馏策略最终...
在图像分类任务中,在ImageNet-1k[27]数据集上对PP-LCNet进行了训练,该数据集包含128万张训练图像和5万张1000个类别的验证图像。使用了带有权重衰减设置为3e-5(大型模型为4e-5)的SGD优化器,动量设置为0.9,批处理大小为2048。学习率根据余弦调度进行调整,用于训练360个epoch,其中包含5个线性预热epoch。初始学习率设...
为了提高PP-OCR的准确性和保持高效率,本文提出了一种更健壮的OCR系统,即PP-OCRv2。我们介绍了一系列技巧来训练更好的文本检测器和文本识别器,包括 Collaborative Mutual Learning (CML), CopyPaste, Lightweight CPU Network (PP-LCNet), Unified-Deep Mutual Learning (U-DML) 和 Enhanced CTCLoss。实际数据实验...
轻量骨干网络 PP-LCNet v2,配合 SSLD 蒸馏算法,模型精度大幅提升。超轻量主体检测算法 PP-PicoDet,快速检测出图像中的目标物体。基于 ReID Strong Baseline 等方法,对特征提取模块进一步优化,精度提升8个点。表1 PP-ShiTu v2 性能对比 ⭐ 更多详细文档,请参考:https://github.com/PaddlePaddle/PaddleClas...
具体来说,飞桨团队自研全新轻量级表格分类模型 PP-LCNet_x1_0_table_cls,实现对有线表、无线表的高精度分类。接下来,我们研发出了业界首个开源表格单元格检测模型 RT-DETR-L_table_cell_det,包括有线表单元格检测预训练权重RT-DETR-L_wired_table_cell_det 和无线表单元格检测预训练权重 RT-DETR-L_...
最近,由PaddleOCR原创团队,针对PP-OCR进行了一些经验性改进,构建了一种新的OCR系统,称为PP-OCRv2。 从算法改进思路上看,主要有五个方面的改进: 检测模型优化:采用CML协同互学习知识蒸馏策略; 检测模型优化:CopyPaste数据增广策略; 识别模型优化:LCNet轻量级骨干网络; ...