QS表示查询选择,SSE表示单尺度编码器,MSE表示多尺度编码器,CSF表示跨尺度融合。 本文提出的编码器由两个模块组成,即基于注意力的尺度内特征交互(AIFI)模块和基于cnn的跨尺度特征融合(CCFM)模块。AIFI在变体D的基础上进一步减少了计算冗余,变体D只在S5上执行尺度内交互。 作者认为,将自注意操作应用于语义概念更丰富...
对于CCFM模块,以YOLO的角度看这个结构的话,这个CCFM模块就是一个FPN/PAN结构。关于CCFM模块中的Fusion文中也给了详细的结构图,是由 2 个1×1 卷积和 N 个RepBlock构成的,这里之所以写成 N ,我觉得是因为RT-DETR可以进行缩放处理,通过调整CCFM中RepBlock的数量和Encoder的编码维度分别控制Hybrid Encoder的深度和宽...
因此,得到了具有不同数量的参数和FPS的RT-DETR的两个版本。 对于混合编码器,通过分别调整CCFM中RepBlock的数量和编码器的嵌入维度来控制depth multiplier和width multiplier。值得注意的是,提出的不同规模的RT-DETR保持了同质解码器,这有助于使用高精度大型DETR模型对光检测器进行蒸馏。这将是一个可探索的未来方向。
因此,得到了具有不同数量的参数和FPS的RT-DETR的两个版本。 对于混合编码器,通过分别调整CCFM中RepBlock的数量和编码器的嵌入维度来控制depth multiplier和width multiplier。值得注意的是,提出的不同规模的RT-DETR保持了同质解码器,这有助于使用高精度大型DETR模型对光检测器进行蒸馏。这将是一个可探索的未来方向。
另外,考虑到多样化的应用场景,实时检测器通常会提供多个不同尺度的模型,RT-DETR 同样可以进行缩放,我们通过调整 CCFM 中 RepBlock 的数量和 Encoder 的编码维度分别控制 Hybrid Encoder 的深度和宽度,同时对 backbone 进行相应的调整即可实现检测器的缩放...
混合编码器:通过尺度内特征交互(AIFI)和跨尺度特征融合模块(CCFM),将多尺度特征转换为图像特征序列。 IoU感知的查询选择:从编码器输出的特征序列中选择固定数量的特征作为解码器的初始目标查询。 解码器:通过辅助预测头迭代优化目标查询,生成边界框和置信度得分。 二、数据集获取 RT-DETR的训练和验证需要数据集支持,...
另外,考虑到多样化的应用场景,实时检测器通常会提供多个不同尺度的模型,RT-DETR 同样可以进行缩放,我们通过调整 CCFM 中 RepBlock 的数量和 Encoder 的编码维度分别控制 Hybrid Encoder 的深度和宽度,同时对 backbone 进行相应的调整即可实现检测器的缩放。 实验结果 01 和实时检测器对比 RT-DETR-L 在 COCO val2017...
RT-DETR的Neck部分解耦了基于Transformer的全局特征编码,设计了AIFI(基于注意力的尺度内特征交互)和CCFM(基于CNN的跨尺度特征融合模块)。AIFI主要通过在高层特征上进行尺度内交互来减少计算冗余。🎯 IoU-aware Query Selection 在RT-DETR模型中,引入了“IoU-aware Query Selection(基于IoU的查询选择)”的概念,以提高...
(2) Neck:起名为HybridEncoder,其实是相当于DETR中的Encoder,其也类似于经典检测模型模型常用的FPN,论文里分析了Encoder计算量是比较冗余的,作者解耦了基于Transformer的这种全局特征编码,设计了AIFI (尺度内特征交互)和 CCFM(跨尺度特征融合)结合的新的高效混合编码器也就是 Efficient Hybrid Encoder ,此外把encoder_...
对于混合编码器,通过分别调整CCFM中RepBlock的数量和编码器的嵌入维度来控制depth multiplier和width multiplier。值得注意的是,提出的不同规模的RT-DETR保持了同质解码器,这有助于使用高精度大型DETR模型对光检测器进行蒸馏。这将是一个可探索的未来方向。