为了有效地在非空旷区域初始化高斯分布,我们设计了一个基于分布的初始化模块,该模块学习像素对齐的占用分布,而不是表面的深度。在nuScenes和KITTI360数据集上进行了大量实验,GaussianFormer-2模型以高效率实现了最先进的性能。 代码地址:https://github.com/huang-yh/GaussianFormer 一些基础介绍 在自动驾驶领域,与基于...
值得注意的是,GaussianFormer在显著减少内存消耗方面超过了所有现有竞争者。GaussianFormer的内存效率源于其以目标为中心的特性,为每个3D高斯赋予了明确的语义意义,从而极大地简化了从场景表示到占用预测的转换,摆脱了从高维特征中解码的昂贵过程。尽管比基于平面表示的方法[16, 26]稍慢(约70毫秒),但GaussianFormer在密集...
GaussianFormer在nuScenes和KITTI-360数据集上实现了与最先进的方法相当的性能,并显著降低了75%以上的显存开销。我们的消融研究表明,GaussianFormer的性能与Gaussian的数量成正比。此外,可视化实现了3D高斯的功能,可以捕捉物体形状的细节,并合理分配计算和存储资源。 局限性:尽管显存开销要低得多,但GaussianFormer的性能仍然...
为了实现这一目标,3D语义高斯表示采用了一组P个高斯基元,其中每个通过其均值、尺度、旋转、不透明度和语义来描述一个局部区域。GaussianFormer将这些基元解释为局部语义高斯分布,这些分布通过加性聚合对整体占用预测做出贡献: 其中,表示第i个语义高斯对的贡献,是在位置x处的整体占用预测。贡献g进一步计算为在位置x处评估...
同时,这种密集的3D体素表示无法区分不同尺度的对象。与这些方法不同,我们遵循GaussianFormer,它表示一个具有许多稀疏3D语义Gaussian的自动驾驶场景。每个高斯分布都实例化了一个语义高斯分布,其特征是均值、协方差和语义逻辑。这种稀疏显式特征表示对下游任务更有利。
然后使用高斯编码器迭代地增强这些表示。每个高斯编码器块由三个模块组成:一个促进高斯人之间交互的自编码模块,一个用于聚合视觉信息的图像交叉注意力模块,以及一个用于微调高斯属性的细化模块。与GaussianFormer不同,我们利用由4D稀疏卷积组成的时间编码器将前一帧的高斯特征与当前帧中的相应特征进行整合。
每个高斯编码器模块由三个组件构成:一个自编码模块,用于促进高斯之间的交互;一个图像交叉注意力模块,用于聚合视觉信息;以及一个精炼模块,用于微调高斯属性。与GaussianFormer不同的是,本文利用了一个包含4D稀疏卷积的时间编码器,将前一帧的高斯特征...
GaussianFormer-2方法 我们提出了一种概率高斯叠加方法,用于高效的三维语义占用预测。首先,我们回顾了原始的三维语义高斯表示法及其局限性。然后介绍了我们的概率高斯建模方法,以及如何基于概率乘法定理和高斯混合模型来推导几何和语义预测。最后详细阐述了基于分布的初始化模块,该模块可有效地在占用区域周围初始化概率高斯。
GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction Yuanhui Huang, Wenzhao Zheng*, Yunpeng Zhang, Jie Zhou, Jiwen Lu+ European Conference on Computer Vision (ECCV), 2024 Paper | Project Page GaussianFormer-2: Probabilistic Gaussian Superposition for Efficient 3D Occ...
KITTI-360 datasets. Experimental results demonstrate that GaussianFormer achieves comparable performance with state-of-the-art methods with only 17.8%–24.8% of their memory consumption. Code is available at:https://github.com/huang-yh/GaussianFormer....