View-pooling Layer,在 CNN 1 后对所有 feature 进行 max pooling,然后送入 CNN 2 二、Voxel Object as Hotspots: An Anchor-Free 3D Object Detection Approach via Firing of Hotspots, ECCV 2020 HotSpotNet 先对Point Cloud 做 Voxelization 预测Hotspot 和 3D Boxes,结合起来输出 Predicted Boxes 有一个 Spa...
这里笔者介绍两种常用的特征提取方法:(1)MLP提取,即是对voxel中的点采用几层全连接层将voxel中的Point信息映射到高维,最后再在每个特征维度上使用maxpooling()得到voxel的特征,但是这种方法必须保证每
作者引入了voxel RoI pooling layers,具体步骤是:proposal → grids → voxel query → aggregate features with PointNet。 It starts by dividing a region proposal into sub-voxels. The center point is taken as the grid point of the corresponding sub-voxel. Specifically, given a grid point, we first...
但是在三维上,voxel的方法通过二维RPN回归了7个维度(中心点,长宽高,朝向),如果采用在feature-map上做roi-pooling,那么只能丢失高度信息截取feature信息,同时会存在一个朝向导致BBox不是平行于feature-map边界的问题(在二维中回归的Bbox都是平行于feature-map的边界的)。如下图表达的问题所示,如果三维feature-map上做...
refine工作就像RCNN系列的二阶段,需要对提出的proposals做一次精细的回归,但是和二维的refine工作存在不同,如下图所示,左边是笔者从fast-rcnn中结构图截出来的图,二维的refine实际上是采用roi-pooling在feature-map上对roi区域做进一步refine,利用的是feature-map的特征信息,这是因为feature-map和二维图像本身具有很多...
网络结果设计如下,其中笔者标出的红色框表示RPN网络,其余部分也就是这里主要想要谈的refine模块,可以注意到,作者在多refine的时候也是在point的基础上做refine的,而特征则是采用了multi-scale的voxel-backbone特征,将voxel特征通过转化到point表示上,并采用多层特征concat的方式,然后通过作者设计的roi-grid-pooling方式将前...
Voxel R-CNN包括3D主干网络,2D BEV RPN和检测头,其中提出的voxel ROI pooling负责从voxel特征中提取ROI特征。 在文章首页中看到的图示,给出属于两步法的当前point-based方法和该文方法的比较。 作者分析SECOND和PV-RCNN的区别,前者是单步voxel-based方法,3D主干网络加2D BEV RPN;后者是进一步改进,加入一个keypoint...
Voxel ROI pooling直接从voxel特征上提取ROI特征,用于3D框进一步优化。在KITTI和Waymo Open数据集上性能均达到SOTA。 二、贡献点 设计了VoxelRCNN框架,在速度和精度取得了很好的平衡,能够实现高性能3D目标检测。 提出Voxel ROI pooling直接从voxel特征上提取ROI,加速了后续特征融合过程。
VoxelNeXt的检测头也是完全稀疏的,之前使用3d backbone输出的sparse feature进行预测。首先会预测每个voxel属于哪个类别的概率。在推理时,论文发现query box通常都不是物体的中心,甚至都不在物体的bbox内。并使用sparse max pooling代替NMS。 DATA_AUGMENTOR:
VSA模块用于将多尺度3D体素特征集成keypoint上,再通过ROI-grid pooling模块提取3D region proposals特征用于边界框refinement。 PV-RCNN框架 分析: SECOND是one-stage网络,而PV-RCNN是two-stage网络,有边界框refinement模块;其次SECOND在BEV上进行目标检测,而PV-RCNN有keypoint信息,保留了3D结构信息。