Voxel-based method mainly relies on sampling and Grouping point in voxel and the feature map generated by subsequent 3D CNN to control the quality of detection. Moreover, traditional voxel feature encoder (VFE) methods cannot adjust the quality of feature map through reasonable sampling. Therefore,...
相比于MV3D最大改进是3D RPN,MV3D使用的是微调的VGG16,同时做了一些操作(upsampling+remove some pooling layer),使得最终的feature map相对于input是 8x downsampling ;而AVOD使用的是FPN,包含了encoder和decoder,在保证最终的feature map相对于input是full-resolution的同时,并且还结合了底层细节信息和高层语义信息,...
但是MLP感知能力不及CNN,同时encoder部分下采样采用了FPS(最远点采样)(目前就采样方法的研究也挺多,均匀采样,随机采样或者特征空间采样其异同都是值得思考研究的),FPS采样对比voxel的方法会更加耗时(2)voxel的方法在精度和速度上都是独树一帜的,但是不可避免的会有信息丢失,同时对体素参数相对比较敏感。
Voxel-FPN论文笔记 Voxel-FPN: multi-scale voxel feature aggregation in 3D object detection from point clouds Introduction Voxel-FPN方法来自海康威视,是一种基于LiDAR原始数据的one-stage 3D目标检测算法。其核心框架是一个encoder网路和一个对应的decoder网络,后面再接RPN网络。encoder部分负责自上而下地提取多尺...
但是从CVPR19到CVPR20一段时间内的voxel -backbone都是采用如下的encoder的结构。这里直接截取PV-RCNN(CVPR20)的网络结构的一部分,看的出来3D稀疏卷积的部分仅仅是一个下采样卷积特征提取的过程,最后的To BEV也就是上面笔者所画的将H层压缩到特征维度的操作。
这里可能需要注意的是voxel-RPN网络仅仅是一个不断下采样的encoder的过程,所以可以直接建立对原始点云的空间索引,通过索引还回到点云表达上。我们可以对比前面提到的,如果在三维中feature-map上做roi-pooling,那么会存在如何处理Bbox和feature边界不平衡的问题,那么如果直接将featurea通过索引到3D点云中就不会存在这样的...
但是从CVPR19到CVPR20一段时间内的voxel -backbone都是采用如下的encoder的结构。这里直接截取PV-RCNN(CVPR20)的网络结构的一部分,看的出来3D稀疏卷积的部分仅仅是一个下采样卷积特征提取的过程,最后的To BEV也就是上面笔者所画的将H层压缩到特征维度的操作。
相比于MV3D最大改进是3D RPN,MV3D使用的是微调的VGG16,同时做了一些操作(upsampling+remove some pooling layer),使得最终的feature map相对于input是 8x downsampling ;而AVOD使用的是FPN,包含了encoder和decoder,在保证最终的feature...
这里可能需要注意的是voxel-RPN网络仅仅是一个不断下采样的encoder的过程,所以可以直接建立对原始点云的空间索引,通过索引还回到点云表达上。我们可以对比前面提到的,如果在三维中feature-map上做roi-pooling,那么会存在如何处理Bbox和feature边界不平衡的问题,那么如果直接将featurea通过索引到3D点云中就不会存在这样的...
但是从CVPR19到CVPR20一段时间内的voxel -backbone都是采用如下的encoder的结构。这里直接截取PV-RCNN(CVPR20)的网络结构的一部分,看的出来3D稀疏卷积的部分仅仅是一个下采样卷积特征提取的过程,最后的To BEV也就是上面笔者所画的将H层压缩到特征维度的操作。