Faster RCNN作为一种经典的目标检测算法,已经在各种实际项目中得到了广泛应用。然而,传统的Faster RCNN主要依赖于卷积神经网络(CNN)作为主干网络进行特征提取,这在一定程度上限制了其性能的提升。近年来,Transformer在自然语言处理领域的成功应用引起了广泛关注,其强大的特征提取能力也为计算机视觉领域带来了新的思考。 S...
最近开始学习目标检测faster rcnn,首先看了很多博客讲解原理,然后从github上下载tensorflow版本的代码,代码太长看了好几天没明白,后来看到了chenyuntc的 simple-faster-rcnn-pytorch,还有作者写这份代码的心得,让我感觉很佩服,自认为目前阶段不能手写如此复杂的代码。作者是从tf版本的改为pytorch版的,我在学习的过程中...
不同之处在于,DETR在主干网络之外使用Transformer块,其motivation是去掉区域proposal和非极大值抑制以实现更简单的目标检测。BoTNet的目标是提供一个主干网络,因此,BoTNet与检测框架(无论是DETR还是R-CNN)是无关的。在本文中,作者基于Mask R-CNN和 Faster R-CNN框架进行了实验。 2.3. Connection to Non-Local Neural...
之前在看Swin Transformer的时候,发现该算法在目标检测、实例分割等各种视觉任务上屠榜,于是想来实践测试一下。 官方地址:https://github.com/SwinTransformer/Swin-Transformer-Object-Detection 查看源码,发现Swin Transformer并不是作为一套单独的算法进行使用,而是嵌入在mask_rcnn算法中,作为该算法的backbone。(当然,...
也可以改进其他的YOLO网络以及目标检测网络,比如YOLOv7、v6、v4、v3,Faster rcnn ,ssd等。
Mask R-CNN网络详解 检测头结构 第二阶段是从Rol处理之后的特征图进行检测/分割,作者在这部分讨论了两种不同的检测头结构,如下图所示: 下图左边是不带FPN结构的Mask分支,右侧是带有FPN结构的Mask分支(灰色部分为原Faster R-CNN预测box, class信息的分支,白色部分为Mask分支) ...
基于CNN的目标检测器,起源于Faster R-CNN [20],已成为解决目标检测任务的一种广泛应用的方法。在某些需要实时处理或存在硬件限制的应用中,轻量级目标检测器是必需的。 最广泛使用的实时目标检测器基于FCOS [21]或YOLO系列检测器[19][23]。这一领域的进展是通过改进网络的主干、 Neck 、检测Head、损失函数和训练过...
基于CNN的目标检测器,起源于Faster R-CNN [20],已成为解决目标检测任务的一种广泛应用的方法。在某些需要实时处理或存在硬件限制的应用中,轻量级目标检测器是必需的。 最广泛使用的实时目标检测器基于FCOS [21]或YOLO系列检测器[19][23]。这一领域的进展是通过改进网络的主干、 Neck 、检测Head、损失函数和训练过...
1.3 改进的 Swin Transformer 主干网络 1.3.1 基于融合 AugMix 算法和 Swin Transfomer 网络的 岩石岩性识别网络结构 本文提出了一种以 Swin Transformer 为骨干网络的 岩石图像分类网络 ,该模型的具体结构组成如图 3 所示。首先,利用 AugMix 算法对已有的数据集进行数据 增强;然后,将 ImageNet 上预训练的基于岩石...
网络结构改进 为了解决高分辨率图像中卷积神经网络的语义信息导致的多尺度目标检测不精确的问题,我们在STA-YOLOv7模型中将Swin-Transformer模型替换YOLOv7主干网络顶层的ELAN模块,在ELAN提取的低分辨率特征映射进行全局像素操作,既可以利用自注意力机制的优势,又可以有效减少计算量,节省内存空间[24]。同时在FPN结构中融入Sw...