结构2要求Mask RCNN的backbone使用FPN网络(特征金字塔网络),可以看出结构2中class、box分支和Mask分支不共用一个ROI层,这是为了保证mask分支拥有更多的细节信息。结构1要求Maks RCNN的backbone采用resnet结构,也即不使用FPN结构。目前来说,结构2采用FPN对检测小目标的效果会有较大的提升。
使用ResNeXt-101-FPN,Mask R-CNN进一步提高了结果,比使用Inception-ResNet-v2-TDM模型高出3.0点AP。 作为进一步的比较,训练了一个没有Mask分支的Mask R-CNN,在上图中用“Faster R-CNN,RoIAlign”表示。由于RoIAlign的存在,该模型比行二算法具有更好的性能。另一方面,比Mask RCNN低0.9分box AP。因此可知Mask ...
Faster R-CNN是一个多任务模型,它的输出包括预测的目标框,以及每个目标框的置信度。Mask R-CNN在Faster R-CNN的基础上,加多一个任务:实例分割。这个分割任务与边框回归、(置信度)分类回归并行。也就是在经过CNN特征提取、RPN候选框提取、ROI的固定size池化之后,输出到三条路径上,每条路径分别代表一个任务。 Mask...
Mask R-CNN采用了和Faster R-CNN相同的两步走策略,即先使用RPN提取候选区域,关于RPN的详细介绍,可以参考Faster R-CNN一文。不同于Faster R-CNN中使用分类和回归的多任务回归,Mask R-CNN在其基础上并行添加了一个用于语义分割的Mask损失函数,所以Mask R-CNN的损失函数可以表示为下式。 上式中, 表示bounding box...
Mask-RCNN 大体框架还是 Faster-RCNN 的框架,可以说在基础特征网络之后又加入了全连接的分割子网,由原来的两个任务(分类+回归)变为了三个任务(分类+回归+分割)。Mask R-CNN 是一个两阶段的框架,第一个阶段扫描图像并生成提议(proposals,即有可能包含一个目标的区域),第二阶段分类提议并生成边界框和掩码。
一. Mask-RCNN 介绍 上篇文章介绍了 FCN,这篇文章引入个新的概念 Mask-RCNN,看着比较好理解哈,就是在 RCNN 的基础上添加 Mask。 Mask-RCNN 来自于年轻有为的 Kaiming 大神,通过在 Faster-RCNN 的基础上添加一个分支网络,在实现目标检测的同时,把目标像素分割出来。
一、Faster RCNN Faster RCNN是两阶段的目标检测算法,包括阶段一的Region proposal以及阶段二的bounding box回归和分类。 Faster RCNN使用CNN提取图像特征,然后使用region proposal network(RPN)去提取出ROI,然后使用ROI pooling将这些ROI全部变成固定尺寸,再喂给全连接层进行Bounding box回归和分类预测。
个人认为Mask RCNN的核心贡献有两点:①证明faster RCNN架构不仅仅局限于目标检测,对其稍加改进,就能应用于其它领域,并且可以取得非常不错的效果;②提出了ROI Align,用于取代ROI pooling,解决ROI pooling存在的近似问题。 2 Mask RCNN 相比faster RCNN,Mask RCNN只是多了个Mask支路,因此这里只对Mask支路进行介绍,有...
Mask R-CNN是在Faster R-CNN的基础上进行了改进,其主要改进是在候选框分类阶段引入了语义分割分支,用于生成候选框的像素级掩码。具体来说,Mask R-CNN首先使用共享的特征提取网络对图像进行特征提取,然后使用区域建议网络生成候选框。接下来,Mask R-CNN将每个候选框的特征与对应的图像特征进行融合,然后分别通过分类分...
R-CNN 2014 年的论文提出了基于 CNN 的两阶段检测算法的朴素版本,该算法在以下论文中得到了改进和加速。如上图所述,整个流水线由三个阶段组成: 生成区域建议:模型必须在图像中绘制候选对象,独立于类别。 第二阶段是一个全卷积神经网络,计算每个候选区域的特征。