YOLOv1最后采用的是全连接层直接对边界框进行预测,其中边界框的宽与高是相对整张图片大小的,而由于各个图片中存在不同尺度和长宽比(scales and ratios)的物体,YOLOv1在训练过程中学习适应不同物体的形状是比较困难的,这也导致YOLOv1在精确定位方面表现较差。 YOLOv2借鉴了Faster R-CNN中RPN网络的先验框(anchor b...
YOLOv3是一种基于深度学习的目标检测算法,由Joseph Redmon等人于2018年提出。YOLOv3是YOLO系列的第三个版本,相比于前两个版本,YOLOv3在速度和精度上都有了很大的提升,相较于YOLOv2的主要变化在于引入了多尺度的概念。 实现原理 YOLOv3实现的大致原理是由卷积神经网络(CNN)网络的输出把图片分成N×N个网格,然后每个...
YOLOV3中使用Darknet53网络作为特征提取网络。 YOLOV4中使用CSPDarknet53网络作为特征提取网络。 CSPDarknet53网络的改进主要是分为两点: (1)采用CSPNET网络融合Darknet53网络,也就是在残差块的部分采用CSPNET中的残差块。 左图是传统ResNe(X)t残差网络的示意图,右边是CSPNet的示意图。 在左图结构中,输入信息经过...
针对YOLO v1的不足, 2016年诞生了YOLO v2。 相比起第一个版本, YOLO v2预测更加精准(Better) 、 速度更快(Faster) 、 识别的物体类别也更多(Stronger) , 在VOC 2007数据集上可以得到mAP 10%以上的提升效果。 从很多方面对YOLO做出了改进, 大体可以分为网络结构的改善、 先验框的设计及训练技巧3个方面, 下...
YOLOV1中网络结构比较简单,主要思想是直接通过CNN得到输出结果。论文中网络结构图如下: 网络结构比较简单,整体结构上可以认为是卷积后就通过全连接层分类。注意全连接层输出大小为4096,这个大小就是7*7*30。预测时,需要将全连接层的结果进行reshape成7*7*30 ...