SegNet、U-Net和RefineNet都采用了类似的结构,后续的DeeplabV3+也是采用了这种结构。 Atrous convolution(空洞卷积):基于空洞卷积的模型设计,这也是DeeplabV3中主要探索的点。空洞卷积的主要优势是:可以在不降低特征空间分辨率的同时提升模型的感受野,获取到更大范围的上下文信息。空洞卷积的示意图如下所示。 3X3空洞卷积,...
每一个RefineNet模块都由四部分组成:第一个是残差卷积单元(Residual Conv Unit),用来调整预训练的权重;第二个是多分辨率融合单元(Multi-Resolution fuse),实现不同分辨率特征图的融合;第三部分是链式残差池化(Chained Residual Pooling),用来捕获背景上下文信息;最后一个是输出卷积单元,处理结果用于最终的预测。具体来说...
具体来说,残差卷积单元包含激活(ReLU)和卷积(Conv 3x3)操作,然后使用加法将前后的特征图融合,这在设计上与ResNet思想相同。多分辨率融合单元将前面多种分辨率的特征图输入到融合模块内后,首先采用卷积层获得尺寸不变的特征图。然后使用上采样操作将所有特征图扩展为尺寸相同的新特征图。最后,使用Sum操作融合所有的特征...
首先是空洞卷积模块的改进,之前我们说了空洞卷积主要是对特征图做采样,扩大感受野,缩小步幅。在v3中我们以串行的方式来设计空洞卷积模块。 上面这张图就是级联模块的示意图,其中上边的是没有加入空洞卷积的级联模块,下边是加入空洞卷积的级联模块。我们先简单介绍下,这个级联模块的结构,我们先看上边这个简单的级联模块,...
这是原论文中DLBV3+结构示意图,如果你是初次接触CV你肯定看不懂这到底是个什么玩意,是要横着看还是竖着看?这里的Encoder和Decoder都是什么意思?不急我们将他分解慢慢讨论,相信我一定可以给你讲明白。 1.什么是Encoder和Decoder? 其实就是表面意思,编码-解码器。其实我们就是把一个神经网络分成了两个部分,其中一个...
图1 一维洞算法示意,内核大小=3,输入跨度=2,输出跨度=1 CRF的作用是对最终产生的score map进行精细化处理,以得到物体的边缘和细节。本文采用了fully-connected CRF。其能量函数(相当于惩罚函数)基本形式如下: 惩罚函数分为两部分,其一是每个像素点自己的能力函数,其二是像素点之间的能量函数(pairwise potential)。
深度可分离卷积最主要目的就是减少网络中的计算量,它是先用1*1卷积将特征图通道数增加,再对每个通道使用一个卷积核进行卷积,下图就是第二步骤的示意图 这样的方法比起普通卷积在学习能力上会有一点点欠缺(不是特别明显),但是计算量少了非常多,可以减少为传统卷积的$\frac{1}{9}$-$\frac{1}{10}$左右。
图3:Atrous Spatial Pyramid Pooling示意图 ASPP共提出了ASPP-S和ASPP-L两个不同尺度的ASPP,它们...
DeepLabv3+结合这两者的优点,在DeepLabv3的基础上拓展了一个简单有效的模块用于恢复边界信息。如下图所示: (a): 即DeepLabv3的结构,使用ASPP模块获取多尺度上下文信息,直接上采样得到预测结果 (b): encoder-decoder结构,高层特征提供语义,decoder逐步恢复边界信息 ...
2015 年的ICLR上提出,DeepLab 是结合了深度卷积神经网络(DCNNs)和概率图模型(DenseCRFs)的方法。 在实验中发现 DCNNs 做语义分割时精准度不够的问题,根本原因是 DCNNs 的高级特征的平移不变性,即高层次特征映射,根源于重复的池化和下采样。 针对信号下采样或池化降低分辨率,DeepLab 采用的空洞卷积算法扩展感受野,...