CIFAR-10原始数据分为5个训练包,以unint格式存储在.mat格式文件中。在本实验中,先5个训练包合并,并用double()函数将其转换double型,以便后续处理。 本实验先用PCA(主成分分析)对训练集与测试集进行降维与白化处理,然后使用带有一个隐藏层的3层神经网络进行有监督学习,对CIFAR-10图像数据库进行十个类别的分类。
这种方式非常暴力,计算量大。 RCNN主要解决的是去掉窗口扫描,用聚类方式,对图像进行分割分组,得到多个侯选框的层次组。 分割分组方法有很多,RCNN用到的是Selective Search。 以下就是RCNN的结构。 从原始图片,通过Selective Search提取出区域候选框,有2000个左右 把所有侯选框缩放成固定大小 然后通过CNN网络,提取特...