YOLOv1最后采用的是全连接层直接对边界框进行预测,其中边界框的宽与高是相对整张图片大小的,而由于各个图片中存在不同尺度和长宽比(scales and ratios)的物体,YOLOv1在训练过程中学习适应不同物体的形状是比较困难的,这也导致YOLOv1在精确定位方面表现较差。 YOLOv2借鉴了Faster R-CNN中RPN网络的先验框(anchor b...
YOLOv3实现的大致原理是由卷积神经网络(CNN)网络的输出把图片分成N×N个网格,然后每个网格负责去检测那些中心点落在该格子内的目标。YOLOv3设定的是每个网格单元预测3个box,所以每个box需要有 (x, y, w, h, confidence)五个基本参数,然后根据数据集的类型的不同还要有20或80个类别的概率。 整体结构图示 各结构...
YOLOV3中使用Darknet53网络作为特征提取网络。 YOLOV4中使用CSPDarknet53网络作为特征提取网络。 CSPDarknet53网络的改进主要是分为两点: (1)采用CSPNET网络融合Darknet53网络,也就是在残差块的部分采用CSPNET中的残差块。 左图是传统ResNe(X)t残差网络的示意图,右边是CSPNet的示意图。 在左图结构中,输入信息经过...
YOLOV1中网络结构比较简单,主要思想是直接通过CNN得到输出结果。论文中网络结构图如下: 网络结构比较简单,整体结构上可以认为是卷积后就通过全连接层分类。注意全连接层输出大小为4096,这个大小就是7*7*30。预测时,需要将全连接层的结果进行reshape成7*7*30 2 YOLO v1中的损失函数 λcoord代表相关性大的损失,λ...
1. 网络结构的改善 YOLO v2对于基础网络结构进行了多种优化, 提出了一个全新的网络结构, 称之为DarkNet。 原始的DarkNet拥有19个卷积层与5个池化层, 在增加了一个Passthrough层后一共拥有22个卷积层, 精度与VGGNet相当, 但浮点运算量只有VGGNet的1/5左右, 因此速度极快,具体结构如图6.4所示。