我们基于DETR框架提出了一种简洁有效的场景文本检测模型DPText-DETR,将query重构为完全显式的点形式,显著地提升了训练收敛速度与数据效率,并探究了控制点标签形式对检测鲁棒性的影响,实验表明DPText-DETR在三个最主要的任意形状场景文本数据集上取得了SOTA性能。另外,我们也提出了Inverse-Text测试集以便后续相关工作使用。
我们基于DETR框架提出了一种简洁有效的场景文本检测模型DPText-DETR,将query重构为完全显式的点形式,显著地提升了训练收敛速度与数据效率,并探究了控制点标签形式对检测鲁棒性的影响,实验表明DPText-DETR在三个最主要的任意形状场景文本数据集上取得了SOTA性能。另外,我们也提出了Inverse-Text测试集以便后续相关工作使用。
我们基于DETR框架提出了一种简洁有效的场景文本检测模型DPText-DETR,将query重构为完全显式的点形式,显著地提升了训练收敛速度与数据效率,并探究了控制点标签形式对检测鲁棒性的影响,实验表明DPText-DETR在三个最主要的任意形状场景文本数据集上取得了SOTA性能。另外,我们也提出了Inverse-Text测试集以便后续相关工作使用。
TESTR中的deformable transformer让模型能自主选择融合关键点附近的某些特征,让模型相较于DETR收敛更快,但最初选择的参考点往往不是那么精确,而且仅仅使用(x, y, w, h)虽然有助于训练,但是目前的模型如ABCNet都是通过预测控制点的坐标确定文本位置,TESTR中的box2polygon与点目标不太匹配。本文的方法引入控制点坐标的...
为解决以上问题,本文提出了动态点场景文本检测模型DPText-DETR。①对于query构建方式的问题:本文提出了一种简洁高效的显式点query构建(Explicit Point Query Modeling, EPQM) 方法,直接利用点的坐标构建显式细化的位置先验信息以加速训练收敛,并且提出了一个增强的因子化自注意(Enhanced Factorized Self-Attention, EFSA...
我们基于DETR框架提出了一种简洁有效的场景文本检测模型DPText-DETR,将query重构为完全显式的点形式,显著地提升了训练收敛速度与数据效率,并探究了控制点标签形式对检测鲁棒性的影响,实验表明DPText-DETR在三个最主要的任意形状场景文本数据集...
this paper proposes a concise Dynamic Point Text DEtection TRansformer network, termed DPText-DETR. In detail, DPText-DETR directly leverages explicit point coordinates to generate position queries and dynamically updates them in a progressive way. Moreover, to improve the spatial inductive bias of ...
Citation If you find DPText-DETR useful in your research, please consider citing: Acknowledgement DPText-DETR is inspired a lot byDeformable DETR,DAB-DETR, andTESTR. Thanks for their great works!
ymy-k/DPText-DETRPublic NotificationsYou must be signed in to change notification settings Fork22 Star174 Code Issues23 Actions Projects Security Insights Commit Update README.md Browse filesBrowse the repository at this point in the history ...
我们基于DETR框架提出了一种简洁有效的场景文本检测模型DPText-DETR,将query重构为完全显式的点形式,显著地提升了训练收敛速度与数据效率,并探究了控制点标签形式对检测鲁棒性的影响,实验表明DPText-DETR在三个最主要的任意形状场景文本数据集上取得了SOTA性能。另外,我们也提出了Inverse-Text测试集以便后续相关工作使用...