在目标检测最常见的二阶段和单阶段范式下,一般将目标检测模型分为backbone、neck和head三个部分,其中backbone指的是骨干网络,它用于提取图像的特征。目前最流行的backbone选择是ResNet系列及其变种,这主要归功于ResNet的流行,有着大量的结构优化和预训练模型。 不过,其实在2018年,旷世就提出了一种名为DetNet的backbone,...
ResNet发布于2015年,目前仍有大量CV任务用其作为backbone(尤其是顶会实验比较),而且当前很多网络都在使用残差模块。
目前 ResNet 被当作目标检测、语义分割等视觉算法框架的主流 backbone。
Backbone-ResNet 1.介绍 ResNet太耀眼了,何凯明团队在2015年在论文Deep Residual Learning for Image Recognition中提出后,至今已经有了8w+的被引数,因为是华人学者的成果,ResNet在国内宣传得很好。 到2015年,当时基于卷积的backbone有AlexNet、GoogLenet、VGG等,这些网络都有一个特点:网络层数比较少,最多十几二十层。
解决什么问题? 目的: 1. 解决网络退化问题。层数变多,效果反而变差。神经网络反而很难实现恒等变换(identity mapping)。(非线性转换是关键目标,它将数据映射到高纬空间以便于更好的完成“数据分类”。随着网络深度的不断增大,所引入的激活函数也越来越多,数据被映射到更加离散的空间,此时已经难以让数据回到原点)...
目标函数跟你用什么backbone 没有关系,跟你的任务以及你自己的设计灵感有关。譬如,对于分类任务,不管...
Resnet要解决的是什么问题 ResNets要解决的是深度神经网络的“退化”问题。 什么是“退化”? 我们知道,对浅层网络逐渐叠加layers,模型在训练集和测试集上的性能会变好,因为模型复杂度更高了,表达能力更强了,可以对潜在的映射关系拟合得更好。而“退化”指的是,给网络叠加更多的层后,性能却快速下降的情况。
1、Multi-head Self-attention in Vision Backbones 在这里,研究者提出了视觉主干中可扩展的局部多头自注意力的一般公式,如上图(a)所示。形式上,给定大小为H×W×C(H:高度,W:宽度,C:通道数)的输入2D特征图X,将X转换为查询Q = XWq,键K=XWk,值V = XWv,分别通过嵌入矩阵 (Wq, Wk, Wv)。 值得注意...
集成后的主干网络被视为一个整体,叫做 Composite Backbone Network (CBNet)。具体而言,CBNet 包含多个同样的主干网络(最后一个主干网络叫做 Lead Backbone,之前的叫做 Assistant Backbone),以及邻近主干网络之间的组合连接。从左到右,Assistant Backbone 每一阶段的输出(即高级特征)作为输入的一部分,通过组合连接流向下一...