作者认为FPN和SSD中的特征金字塔只利用了主干网络的不同stage的特征进行目标检测,而主干网络最初是针对分类问题设计的,觉得在特征金字塔这块还有提升的空间。所以提出M2Det模型,主要是Multi-Level Feature Pyramid Network(MLFPN)模块,其由Thinned U-shape Modules(TUM),Feature Fusion Modules(FFM)和Scale-wise Feature ...
如Figure 2所示,我们首先将backbone提取的多级特征(即多层)融合为基础特征,然后将其输入Multi-Level Feature Pyramid Network(MLFPN)中。MLFPN包含交替连接的Thinned U-shape Modules(TUM)、Feature Fusion Module(FFM)和Scale-wise Feature Aggregation Module (SFAM)。其中,TUMs和FFMs提取出更具代表性的多级多尺度特征。
最新的,在这个工作中,作者提出了一个方法称为多级金字塔网络(Multi-Level Feature Pyramid Network, MLFPN)来构建检测不同尺度目标更有效的金子塔。 首先融合骨干网提出的多级特征作为基础特征 把基本的特征加入一组交替连接的u型模块和特征融合模块,利用每个u型模块的解码器层作为目标检测的特征 将具有等效尺度(大小)...
本文提出Multi-Level Feature Pyramid Network来搭建高效检测不同尺度目标的特征金字塔。MLFPN由FFM、TUMs以及SFAM三部分组成。其中FFMv1(Feature Fusion Module)用于混合由backbone提取的多层级特征作为基础特征;TUMs(Thinned U-shape Modules)以及FFMv2s通过基础特征提取出多层级多尺度的特征;SFAM(Scale-wise Feature Aggr...
Scale variation is one of the challenges in object detection. In this paper, we design a Multi-Level Feature Fusion Pyramid Network (MLFFPN) that can fuse
FPN类型的feature pyramid,multi-level的feature map进行融合得到feature pyramid STDN类型的feature pyramid,利用denseNet中最后一个block 的不同layer进行预测,听起来有点像SSD,但是和SSD合适不太一样。他是将相同大小的feature map分别下采样以及上采样得到不同大小分辨率的feature map,再进而进行detection。这样做的一...
Hence, this paper puts forward an enhanced deep multi-level feature pyramid network that addresses the difficulty in inferring handguns from a non-canonical perspective. We first construct a dataset containing handguns in an unconstrained environment for representation learning. The dataset is ...
Hence, we call our feature pyramid block Multi-Level Feature Pyramid Network (MLFPN).本文的目的是构建一个更有效的特征金字塔,用于检测不同尺度的物体,同时避免上述现有方法的局限性。如图2所示,为了实现这个目标,我们首先融合由骨干网络提取的多级特征(即多个层)作为基本特征,然后将其馈送到交替连接的简化U形...
M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network 目录 一、摘要 二、简介: 1、存在的问题 2、传统检测算法对多尺度的处理方法 2、本文提出的方法 三、方法的详细描述: 1、MLFPN 2、FFMs 3、TUM 4、SFAM 四、网络配置...
Multi-level Feature Pyramid Network As shown in Fig. 2, MLFPN contains three parts. Firstly, FFMv1 fuses shallow and deep features to produce the base feature, e.g., conv4 3 and conv5 3 of VGG (Simonyan and Zisserman 2015), which provide multi-level semantic information for MLFPN. ...