详情见下图(图3)所示:(上层架构:我们扩展了两种现有的Faster R-CNN上层架构[14,21],并分别添加了一个掩模分支。左/右面板分别显示了ResNet C4和FPN主干的上层架构。图中数字表示通道数和分辨率,箭头表示卷积、反卷积和全连接层(可以通过上下文推断,卷积减小维度,反卷积增加维度。)所有的卷积都是3×3的,除了输出...
Mask R-CNN把抽取特征的CNN部分定义为backbone,把分类、回归和分割部分定义为head。Mask R-CNN把ResNet第4个stage出来的feature定义为ResNet C4,同时Mask R-CNN还探索了更加有效的FPN网络。 FPN结构如图所示。FPN采用自顶向下结构,通过横向连接构建网络内部特征金字塔。FPN可以根据anchor的尺度大小分配特征层,从不同特...
(a) 骨干架构:更好的骨干带来 预期收益:更深的网络做得更好,FPN 优于 C4 特性,ResNeXt 对 ResNet 进行了改进。 (b) 多项式与独立掩模 (ResNet-50-C4):通过类间二进制掩模(s 形)去耦得到的增益大于多项式掩模 (softmax)。 (c) RoIAlign (ResNet-50-C4):用各种 RoI 层屏蔽结果。我们的 RoIAlign 层...
表2d展示了RoIAlign通过大量7.3点改善了掩码$AP$,和通过10.5点改善掩码$AP_{75}$(50%的相关改善)。此外,我们注意到使用RoIAlign,使用$stride-32 C5$特征(30.9$AP$)比使用$stride-16 C4$特征(30.3$AP$,表2c)更准确。RoIAlign在很大程度上使用大步特征进行检测和分割进行长期挑战。 最后,当我们使用FPN的时候...
该部分的主要功能就是接收任意尺寸的图片作为输入,然后产生一系列有有得分的锚框。默认的网络架构是'R-50-C4'。该部分主要包括rpn_head和anchor_generator。 1、rpn_head : 默认的rpn是SingleConvRPNHead,也就是说RPNHead只用了一个卷积层,再后接一个分类层和bbox回归层。
M5层通过双线性插值或最近邻插值进行上采样(目的是与C4层变为相同大小)再加上C4经过1×1卷积后的特征图(特征图中每一个相同位置元素直接相加),得到M4层。类似过程分别对C3和C2进行,得到M3层和M2层。最终红色的M1-M5层特征图再经过3 x 3卷积进行特征增强,得到最终的P2、P3、P4、P5层特征。
c2, c3, c4, c5 = base_net.outputs 列 2. 顶层特征回归网络 顶层特征回归网络是由多个卷积层组成的网络。它的输入由底层特征提取网络提取的特征图和经过上采样后的顶层特征金字塔组成,经过卷积和池化层的处理后,输出最终的目标检测结果。 其中,顶层特征金字塔是由多个 FPN 层组成的,并且各层之间通过横向连接进行...
_, C2, C3, C4, C5 = resnet_graph(input_image, config.BACKBONE, stage5=True) _: 256*256*64 C2: 256*256*256 C3: 128*128*512 C4: 64*64*1024 C5: 32*32*2048 下面是开始执行FPN操作代码,可以看到,基于1*1卷积,输出的都是C=256的特征图: ...
然后对每个【块】的每个通道取最大值(也就是在每个块进行全局最大池化),分别得到4 × 4 × c 4\times 4\times c4×4×c,2 × 2 × c 2\times 2\times c2×2×c和1 × 1 × c 1\times 1\times c1×1×c的特征。然后将三个层次的特征展开后放到一起,就可以得到21 c 21c21c维的特征,...
有趣的是,Mask R-CNN与类无关的面具(即。,预测一个单一的m×m输出(不考虑类)几乎是同样有效的:它有29.7个Mask AP,而在ResNet-50-C4上的特定类对应的Mask AP是30.3。这进一步强调了我们在很大程度上解耦了分类和分割的方法中的劳动分工。 RoIAlign:对我们提出的RoIAlign层的评估如表2c所示。在这个实验中,...