Forward Projection:以LSS(Lift Splat Shoot)为代表,通过对每张图的深度进行估计,以此得到camera中某位置特征点映射到俯视角度的直接映射关系,通过投影和BEV pooling的方式将其映射到网格上。 Backward Projection:以BEVFormer为代表,通过Attention机制构建BEV网格特征与特征图之间的相互关系,以此得到dense的BEV特征图。 针对...
而转换成的BEV空间的特征点云,以自车作为坐标系原点,沿x轴和y轴展开,以局部网格采样的方式,如网格间隔(grid)为r,一般通过池化(pooling)操作来聚合每个 r × r BEV空间网格内的特征,并沿 z 轴(高度方向)展平特征,于是完成了从2D到BEV空间的转换。 BEVFusion相机到BEV空间转换机制 此外,纽劢提出的对多相机配...
而从点云生成BEV特征的过程就自然的包括了多相机的特征融合:BEVDet中是简单的Pooling操作,而BEVFormer...
而转换成的BEV空间的特征点云,以自车作为坐标系原点,沿x轴和y轴展开,以局部网格采样的方式,如网格间隔(grid)为r,一般通过池化(pooling)操作来聚合每个 r × r BEV空间网格内的特征,并沿 z 轴(高度方向)展平特征,于是完成了从2D到BEV空间的转换。 BEVFusion相机到BEV空间转换机制 此外,纽劢提出的对多相机配...
而转换成的BEV空间的特征点云,以自车作为坐标系原点,沿x轴和y轴展开,以局部网格采样的方式,如网格间隔(grid)为r,一般通过池化(pooling)操作来聚合每个 r × r BEV空间网格内的特征,并沿 z 轴(高度方向)展平特征,于是完成了从2D到BEV空间的转换。
而转换成的BEV空间的特征点云,以自车作为坐标系原点,沿x轴和y轴展开,以局部网格采样的方式,如网格间隔(grid)为r,一般通过池化(pooling)操作来聚合每个 r × r BEV空间网格内的特征,并沿 z 轴(高度方向)展平特征,于是完成了从2D到BEV空间的转换。
三、本文解决什么问题 本文的BEVFusion在鸟瞰图空间(bird’s-eye view (BEV) )实现了统一的多模态特征表示,能够同时保持几何结构和语义信息。 在camera-to-BEV的转化中,本文优化后的BEV pooling实现了40x的速度提升。 实现了1.3%的mAP提升在3D 物体检测任务上,13.6%的mIoU提升在BEV分割上,并且计算代价减少1.9x。
在同等输入(context, depth)的情况下,3D-to-2D的采样方式能以相同的速度实现比BEV Pooling更好的NDS...
在最后,也是将相机的特征映射到BEV视图,同时文章提出了比直接BEV Pooling更为有效的池化方法,该方法速度更快,同时可以得到更好的聚合特征。大约40倍快于LSS中的方法。从这里,进一步看出了LSS方法给人带来的启发。 第二个分支为LiDAR分支,作者使用VoxelNet作为LiDAR的特征学习方法,最后将学习到的3D特征在Z方向进行压缩...