右边通过稀疏decoder可以将encoder部分提取到的特征传递给全局的voxels(这里可能会将全局的voxels,包括空的voxel都会被传递为含有特征的voxels),所以refine仅仅在proposals内部包含的voxel的特征做进一步优化,也算是在三维中的进一步优化。
图1 Voxel-MAE的整体框图:首先将大规模点云转成体素表示,然后采用距离感知的掩码策略对体素进行mask,再将unmasked的体素送入不对称的encoder-decoder网络,重建体素。最后,采用判断体素内是否包含点云的二分类交叉熵损失函数端到端训练整个网络。Encoder采用三维稀疏卷积网络构建,Decoder采用三维反卷积实现。 Range-aware M...
右边通过稀疏decoder可以将encoder部分提取到的特征传递给全局的voxels(这里可能会将全局的voxels,包括空的voxel都会被传递为含有特征的voxels),所以refine仅仅在proposals内部包含的voxel的特征做进一步优化,也算是在三维中的进一步优化。
使得最终的feature map相对于input是 8x downsampling ;而AVOD使用的是FPN,包含了encoder和decoder,在保证最终的feature map相对于input是full-resolution的同时,并且还结合了底层细节信息和高层语义信息,因此能显著提高物体特别是小物体的检测效果。
笔者把上面的文章结构图简化如下,笔者简化后可以看的更加清楚,前面这部分voxel-backbone即是综述(一)大篇幅介绍的内容,右边通过稀疏decoder可以将encoder部分提取到的特征传递给全局的voxels(这里可能会将全局的voxels,包括空的voxel都会被传递为含有特征的voxels),所以refine仅仅在proposals内部包含的voxel的特征做进一步优化...
Voxel-FPN方法来自海康威视,是一种基于LiDAR原始数据的one-stage 3D目标检测算法。其核心框架是一个encoder网路和一个对应的decoder网络,后面再接RPN网络。encoder部分负责自上而下地提取多尺度的voxel信息,而decoder部分负责自下而上的融合多尺度特征图。
相比于MV3D最大改进是3D RPN,MV3D使用的是微调的VGG16,同时做了一些操作(upsampling+remove some pooling layer),使得最终的feature map相对于input是 8x downsampling ;而AVOD使用的是FPN,包含了encoder和decoder,在保证最终的feature...
Voxel-MAE的encoder和decoder的结构如下:3DSparseCvonv 和 3DTransCvonv 分别表示 SECOND 中提出的 3D Sparse Convolution 和常见的 3D Deconvolution。在这里,显示了在 KITTI 数据集上预训练 SECOND 的输出大小。 Reconstruction Target 2D MAE中采用masked部分的RGB像素回归作为掩码自编码器自监督学习的目标,但是3D点...
接下来对Voxel-based Set Attention按Encoder,ConvFFN以及Decoder进行结构的介绍: Encoder K,V∈R^{n*d}都是将输入特征经过MLP之后的特征,Q∈R^{n*d}隐藏特征 \tilde{A}=Softmax_{scatter}(A,V), A=KL^{T} H=\tilde{A}^{T}V 这里的 v代表的是voxel的索引,Softmaxscatter是根据voxel的索引在每个vo...
Hence, to better utilise the scarce dataset, we propose to explicitly exploit such intrinsic features of voxels through a novel voxel-level cross-volume representation learning paradigm on the basis of an encoder-decoder segmentation model. Our method introduces no extra cost during inference. ...