它主要是将多尺度作为提升网络性能的出发点,并结合分组卷积和类似特征金字塔FPN的思想所设计的一种backbone。以往的多尺度都是基于不同层之间相加的方法,例如FPN,而本文是通过在同一层中结合来自不同小分块的不同感受野来得到多尺度的。本文思想比较简单明了,没有复杂的公式堆叠,相对原生的ResNet,性能有较大的提升。
一直用VGG训练,几天前想看下ResNet的效果如何,因为SSD源码中有python实现的ResNet网络结构实现代码,包含ResNet101和ResNet152,直接拿ResNet101来训练,GTX1060配置,batchsize竟然只降到2才跑的起来,果然一直收敛不了。看了下model_libs.py里面的实现代码: 代码语言:javascript 代码运行次数:0 运行 AI代码解释 def ...
另外文章指出了,在训练的时候将GT应该保持不动,将概率图插值之后再进行计算loss。 v3+将encoder部分替换成了X-inception,加入了深度可分离卷积,鉴于对最后的概率图依然使用大倍数的双线性插值恢复到与原图一样的大小还是过于简单,因此在这个版本中,增加了一个恢复细节的解码器部分。 23、特征金字塔FPN? 答:何恺明发表...