一、网络总体结构 总体结构如图: 可分为以下四个模块↓ 二、分层详解 ①卷积层 卷积层可以基于VGG或ResNet50,本文基于ResNet50构造卷积层。 卷积层合计13个Conv,13个ReLu,4个Pooling。 其中Conv的属性为:kernel_size=3, padding=1, stride=1 Pooling的属性为:kernel_size=2, padding=0, stride=2 Tips:卷积...
经过R-CNN和Fast RCNN的积淀,Ross B. Girshick在2016年提出了新的Faster RCNN,在结构上,Faster RCNN已经将特征抽取(feature extraction),proposal提取,bounding box regression(rect refine),classification都整合在了一个网络中,使得综合性能有较大提高,在检测速度方面尤为明显。 图1 Faster RCNN基本结构(来自原论文...
(其实就是上图所示的那种框),在feature map的每个像素点都添加上这样的框,就形成了下图右侧那种样子: 回到faster RCNN网络结构 上图可以分为上下两条线,其中: 绿色框选中的那部分的是用来训练anchors内是背景还是我们选择的特征。其中18是因为有9个框,每个框有两个属性,background或feature,所以一共18层。 蓝色...
首先来看fasterRCNN的网络图: 对于一个图片,fasterRCNN需要做的其实是四件事情: 1、Conv layers。作为一种CNN网络目标检测方法,Faster RCNN首先使用一组基础的conv+relu+pooling层提取image的feature maps。该feature maps被共享用于后续RPN层和全连接层。 2、Region Proposal Networks。RPN网络用于生成region proposals。
【前面5层】:作者RPN网络前面的5层借用的是ZF网络,这个网络的结构图我截个图放在下面,并分析下为什么是这样子的; image 1、首先,输入图片大小是 224*224*3(这个3是三个通道,也就是RGB三种) 2、然后第一层的卷积核维度是 7*7*3*96 (所以大家要认识到卷积核都是4维的,在caffe的矩阵计算中都是这么实现的...
Conv Block的结构如下: Identity Block的结构如下: 这两个都是残差网络结构。 Faster-RCNN的主干特征提取网络部分只包含了长宽压缩了四次的内容,第五次压缩后的内容在ROI中使用。即Faster-RCNN在主干特征提取网络所用的网络层如图所示。 以输入的图片为600x600为例,shape变化如下: ...
1、生成可能区域(Region Proposal) & CNN 提取特征 2、放入分类器分类并修正位置 这一流派的算法都离不开Region Proposal,即是优点也是缺点,主要代表人物就是R-CNN系。 一刀流 顾名思义,一刀解决问题,直接对预测的目标物体进行回归。 回归解决问题简单快速,但是太粗暴了,主要代表人物是YOLO和SSD。
Fast R-CNN(Selective Search + CNN + ROI) Faster R-CNN(RPN + CNN + ROI) R-FCN 等系列方法; RPN全称是Region Proposal Network,Region Proposal的中文意思是“区域选取”,也就是“提取候选框”的意思,所以RPN就是用来提取候选框的网络 Regions of interest(ROI) ...
可以看到第一个步骤是用ImageNet的模型M0来Finetuning RPN网络得到模型M1。以训练为例,这里的args参数都在脚本 experiments/scrips/faster_rcnn_alt_opt.sh中找到。主要关注train_rpn函数。 对于train_rpn函数,主要分一下几步: 1.在config参数的基础上改动参数,以适合当前任务,主要有 ...
比如下图,就是狗分类的SVM 步骤五:使用回归器精细修正候选框位置:对于每一个类,训练一个线性回归模型去判定这个框是否框得完美。 细心的同学可能看出来了问题,R-CNN虽然不再像传统方法那样穷举,但R-CNN流程的第一步中对原始图片通过Selective Search提取的候选框region proposal多达2000个左右,而这2000个候选框每个...