本发明涉及3D网络技术领域,具体是一种体素化3D网络voxel‑encoder与VFE基于FPGA的实现算法,本发明专利主要是针对3D目标检测的深度学习网络的数据预处理中voxel‑encoder部分(体素编码)以及vfe部分(特征提取)基于FPGA算法的从0到1的实现,整个过程全流水运算,有效的将CPU耗时的运算淹没至RAM,输入到3D卷积的过程中,极大...
本发明涉及3D网络技术领域,具体是一种体素化3D网络voxelencoder与VFE基于FPGA的实现算法,本发明专利主要是针对3D目标检测的深度学习网络的数据预处理中voxelencoder部分(体素编码)以及vfe部分(特征提取)基于FPGA算法的从0到1的实现,整个过程全流水运算,有效的将CPU耗时的运算淹没至RAM,输入到3D卷积的过程中,极大得提升...
其中3D 稀疏卷积表达是当前流行的backbone设计基础结构,极大的解放了显存占用,因此可以在3D稀疏卷积上设计各种高效的Backbone结构。但是从CVPR19到CVPR20一段时间内的voxel -backbone都是采用如下的encoder的结构。这里直接截取PV-RCNN(CVPR20)的网络结构的一部分,看的出来3D稀疏卷积的部分仅仅是一个下采样卷积特征提取的...
其中3D 稀疏卷积表达是当前流行的backbone设计基础结构,极大的解放了显存占用,因此可以在3D稀疏卷积上设计各种高效的Backbone结构。但是从CVPR19到CVPR20一段时间内的voxel -backbone都是采用如下的encoder的结构。这里直接截取PV-RCNN(CVPR20)的网络结构的一部分,看的出来3D稀疏卷积的部分仅仅是一个下采样卷积特征提取的...
Voxel Encoder 为了实现局部特征交互,在每个voxel space采用voxel encoder. 在每个空间V_{I}或V_{P}从平面和竖直维度进行聚合。 2.Cross-modality Interaction 跨模态交互从2个方面提出,在单模态设置下将几何相关知识迁移到图像,在多模态设置下将内容相关特征融合到点云中。知识迁移旨在单模态设置下通过teacher引导stu...
笔者把上面的文章结构图简化如下,笔者简化后可以看的更加清楚,前面这部分voxel-backbone即是综述(一)大篇幅介绍的内容,右边通过稀疏decoder可以将encoder部分提取到的特征传递给全局的voxels(这里可能会将全局的voxels,包括空的voxel都会被传递为含有特征的voxels),所以refine仅仅在proposals内部包含的voxel的特征做进一步优化...
相比于MV3D最大改进是3D RPN,MV3D使用的是微调的VGG16,同时做了一些操作(upsampling+remove some pooling layer),使得最终的feature map相对于input是 8x downsampling ;而AVOD使用的是FPN,包含了encoder和decoder,在保证最终的feature map相对于input是full-resolution的同时,并且还结合了底层细节信息和高层语义信息,...
但是从CVPR19到CVPR20一段时间内的voxel -backbone都是采用如下的encoder的结构。这里直接截取PV-RCNN(CVPR20)的网络结构的一部分,看的出来3D稀疏卷积的部分仅仅是一个下采样卷积特征提取的过程,最后的To BEV也就是上面笔者所画的将H层压缩到特征维度的操作。
但是从CVPR19到CVPR20一段时间内的voxel -backbone都是采用如下的encoder的结构。这里直接截取PV-RCNN(CVPR20)的网络结构的一部分,看的出来3D稀疏卷积的部分仅仅是一个下采样卷积特征提取的过程,最后的To BEV也就是上面笔者所画的将H层压缩到特征维度的操作。
图1 Voxel-MAE的整体框图:首先将大规模点云转成体素表示,然后采用距离感知的掩码策略对体素进行mask,再将unmasked的体素送入不对称的encoder-decoder网络,重建体素。最后,采用判断体素内是否包含点云的二分类交叉熵损失函数端到端训练整个网络。Encoder采用三维稀疏卷积网络构建,Decoder采用三维反卷积实现。