Fast R-CNN 联合学习检测对象的空间位置并对它们进行分类。 R-CNN 很慢,因为对每个对象提议都进行了前向传递。虽然 SPP-Nets 确实解决了这个问题并在测试时将 R-CNN 加速了 100 倍,但训练是一个多阶段过程,需要许多密集计算步骤,与 R-CNN 相比仅加速了 3 倍。此外,固定的卷积层对网络的准确性造成了限制。
Faster RCNN是两阶段的目标检测算法,包括阶段一的Region proposal以及阶段二的bounding box回归和分类。 Faster RCNN使用CNN提取图像特征,然后使用region proposal network(RPN)去提取出ROI,然后使用ROI pooling将这些ROI全部变成固定尺寸,再喂给全连接层进行Bounding box回归和分类预测。 二、ResNet-FPN 多尺度检测在目...
RCNN:对输入图像分割区域建议,在用卷积层独立地提取特征,使用SVM对每个特征进行分类+边界框回归。 FastRCNN:RCNN+首先在整个图像上进行卷积操作,然后将该操作结果应用到ROIPooling层。 FasterRCNN:FastRCNN+RPN+与网络分享卷积权重。 MaskRCNN:FasterRCNN+FCN 由上面的发展可以看到RCNN系列一步步地继承集成出来的。
总的来说,在Faster R-CNN和FPN的加持下,Mask R-CNN开启了R-CNN结构下多任务学习的序幕。它出现的时间比其他的一些实例分割方法(例如FCIS)要晚,但是依然让proposal-based instance segmentation的方式占据了主导地位(尽管先检测后分割的逻辑不是那么地自然)。
FPN 管道为生成具有丰富语义内容的多尺度特征图提供了通用解决方案。当应用于 Faster R-CNN 对象检测流水线时,FPN 架构既适用于生成边界框建议的 RPN 网络,也适用于 Fast R-CNN 基于区域的分类器主干。通过替换主干网络并提供 FPN 输出而不是单个特征图,FPN 被采用到 RPN。在应用锚点时,我们在金字塔输入的不同...
最后,整个Mask RCNN网络结构包含两部分,一部分是backbone用来提取特征(上文提到的采用ResNet-50或者ResNet-101作为特征提取器提取特征),另一部分是head用来对每一个ROI进行分类、框回归和mask预测。为了产生对应的Mask,文中提出了两种架构,即左边的Faster R-CNN/ResNet和右边的Faster R-CNN/FPN,如图11所示。...
R-CNN的一个关键步骤是选择性搜索,它使用分割算法对图像进行处理,并根据分割图绘制区域建议(边界框)。值得注意的是,虽然R-CNN使用AlexNet的卷积部分作为第二阶段,但理论上可以使用任何其他CNN架构。 二、FPN:特征金字塔网络的崛起 FPN(Feature Pyramid Network)是一种用于目标检测的特征提取网络。它利用自底向上和自...
进一步,我们需要按照RCNN的思路,使用proposal对共享特征进行ROI操作,在Mask-RCNN中这里有两个创新: ROI使用ROI Align取代了之前的ROI Pooling 共享特征由之前的单层变换为了FPN得到的金字塔多层特征,即:mrcnn_feature_maps = [P2, P3, P4, P5] 其中创新点2意味着我们不同的proposal对应去ROI的特征层并不相同,所...
Mask R-CNN 网络结构 Mask RCNN继承自Faster RCNN主要有三个改进: feature map的提取采用了FPN的多尺度特征网络; ROI Pooling改进为ROI Align; 在RPN后面,增加了采用FCN结构的mask分割分支。 网络结构如下图所示: mask-rcnn网络结构 可以看出,Mask RCNN 是一种先检测物体,再分割的思路,简单直接,在建模上也更...
RPN和Mask R-CNN具有相同的主干。 推理配置 在测试时,使用C4骨干或FPN骨干得到建议框。在这些建议框上运行bbox预测分支,首先根据置信度进行非极大值抑制,然后将mask分支应用于得分最高的100个检测框。mask分支可以预测每个RoI的K个掩码,但只使用 k -th 掩码,其中 k 是classification分支预测的类别。然后将 m×m...