使用的是标准的自注意力计算方法,而在其Decoder中,则使用的是可变形自注意力(deformable attention),可变形自注意力能够大幅的降低计算量,同时该部分还使用到了CUDA算子,能够加快运行速度,当然,这个可变形自注意力计算并非是RT-DETR的
Uncertainty-minimal Query Selection是RT-DETR提出的第二个创新点,其作用是在训练期间约束检测器对高IOU的特征产生高分类分数,对低IOU的特征产生低分类分数。从而使得模型根据分类分数选择的Top-K特征对应的预测框同时具有髙分类分数和高IOU分数。 如下图,这是RT-DETR所作的一个分析,其中蓝色代表使用查询选择后的结果...
一、本文介绍 本文记录的是基于MobileNet v2的 RT-DETR轻量化改进方法研究。MobileNet v2采用深度可分离卷积将标准卷积分解为深度卷积和1×1卷积,大幅削减计算量。同时,引入线性瓶颈层来防止非线性在低维空间破坏信息,避免非线性层导致的性能下降问题。本文将MobileNet v2应用到RT-DETR中,借助其高效的结构和特性,在保...
一、本文介绍 本文记录的是基于MobileNet v2的 RT-DETR轻量化改进方法研究。MobileNet v2采用深度可分离卷积将标准卷积分解为深度卷积和1×1卷积,大幅削减计算量。同时,引入线性瓶颈层来防止非线性在低维空间破坏信息,避免非线性层导致的性能下降问题。本文将MobileNet v2应用到RT-DETR中,借助其高效的结构和特性,在保...
博主首先使用官方代码进行讲解,在后面还会对YOLOv8集成的RT-DETR代码进行讲解,之所以这样安排很大程度上是因为官方代码相较而言更容易理解,而YOLOv8中集成的RT-DETR代码更加具有通用性与规范性,因为里面多是以配置文件的形式来编写的,在理解上或许不够直观。
结合PaddleDetection开源的代码来看,RT-DETR是基于先前DETR里精度最高的DINO检测模型去改的,但针对实时检测做了很多方面的改进,而作者团队正是先前PP-YOLOE和PP-YOLO论文的同一波人,完全可以起名为PP-DETR,可能是为了突出RT这个实时性的意思吧。 RT-DETR模型结构 ...