以往工作要求固定的输入尺寸,SPPNet引入SPP层后,使得CNN可以产生固定长度的表征而与输入尺寸无关 问题:需要多阶段训练,且只对全连接层微调而忽略了所有前序层 (3)Fast RCNN 提出同时训练一个检测器和一个包围框回归器 问题:检测速度受到候选框的限制 (4)Faster RCNN 第一个端到端且几乎实时的深度学习检测器 ...
然后使用手工组件 Anchor-Base(Faster-RCNN、SSD、YOLOv1-v7) 或者 Anchor-Free(YOLOv8、YOLOX)加...
提出了第一个实时端到端目标检测器,它不仅在准确性和速度上优于当前的实时检测器,而且不需要后处理,因此推理速度不延迟,保持稳定; 详细分析了NMS对实时检测器的影响,并从后处理的角度得出了关于基于CNN的实时检测器的结论; 提出的IoU-Aware查询选择在我们的模型中显示出优异的性能改进,这为改进目标查询的初始化方案...
本文提出了一种简单高效的模块——反向残差移动块(iRMB),通过堆叠不同层级的 iRMB,进而设计了一个面向移动端的轻量化网络模型——EMO,它能够以相对较低的参数和 FLOPs 超越了基于 CNN/Transformer 的 SOTA 模型,如下图所示: 结合Transformer 中的多头注意力机制 (MHSA) 和 FFN 模块以及 MobileNet-v2中的...
输入自适应交互与门控卷积:Vision Transformer的成功主要依赖于对视觉数据中空间交互的适当建模,与简单使用静态卷积核聚合相邻特征的CNN不同,Vision Transformer应用多头自注意力来动态生成权重以混合空间标记,但自注意力关于输入大小的二次复杂度在很大程度上阻碍了其应用,尤其是在需要更高分辨率特征图的下游任务中。在这...
然而,很多实际应用场景对模型实时推理的能力要求较高,但大部分轻量化ViT仍无法在多个部署场景 (GPU,CPU,ONNX,移动端等)达到与轻量级CNN(如MobileNet) 相媲美的速度。为了实现对ViT模型的实时部署,来自微软和港中文的研究者从三个维度分析了ViT的速度瓶颈,包括多头自注意力(MHSA)导致的大量访存时间,注意力头之间的...
本文记录的是利用Strip Pooling模块优化RT-DETR的目标检测网络模型。Strip Pooling结合了长而窄的卷积核形状在一个空间维度上的长程关系捕捉能力和在另一个空间维度上的局部细节捕捉能力,有效地处理复杂的场景信息。这一机制通过采用1×N或N×1的池化核形状来适应不同的图像特征,提高模型对目标形状和分布的适应性。在...
基于上述分析,我们重新思考编码器的结构,提出了一种有效的混合编码器,由基于注意力的尺度内特征交互(AIFI)和基于 CNN 的跨尺度特征融合(CCFF)两个模块组成。具体来说,AIFI 通过使用单尺度 Transformer 编码器仅在 S5 上执行尺度内交互,进一步降低了基于变体 D 的计算成本。原因是将自注意力操作应用于具有更丰富语...
输入自适应交互与门控卷积:Vision Transformer的成功主要依赖于对视觉数据中空间交互的适当建模,与简单使用静态卷积核聚合相邻特征的CNN不同,Vision Transformer应用多头自注意力来动态生成权重以混合空间标记,但自注意力关于输入大小的二次复杂度在很大程度上阻碍了其应用,尤其是在需要更高分辨率特征图的下游任务中。在这...
(4)Mask R-CNN:在Faster-RCNN上增加了一个mask预测分支,可以检测目标,同时预测目标的mask。 (5)R-FCN:将全连接层替换为位置敏感分数图,以便更好地检测目标。 (6)Cascade R-CNN:通过增加IoU阈值来训练一系列检测器,解决了训练时过拟合和推理时质量不匹配的问题。