本文提出了一种新型通用模型,即Video-3D LLM,用于三维场景理解。该模型将三维场景视为动态视频,并在表征中融入三维位置编码,从而更准确地将视频表征与现实世界的空间上下文对齐。 Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding Duo Zheng, Sh
LEO正是基于以物体为中心的三维点云表征与语言模型,展示了其在三维场景理解及具身交互等任务中的出色表现。深蓝学院邀请了北京大学的黄江勇博士,给大家分享他们团队构建的首个三维世界中的具身多任务多模态的通才智能体LEO,并介绍三维场景理解的评估基准...
三维场景理解与重建技术能够使计算机对真实场景进行高精度复现并引导机器以三维空间的思维理解整个真实世界,从而使机器拥有足够智能参与到真实世界的生产与建设,并能通过场景的模拟为人类的决策和生活提供服务。 三维场景理解与重建技术主要包含场景点云特征提取、扫描点云配准与融合、场景理解与语义分割、扫描物体点云补全与...
1、作者是第一个将CLIP知识提炼到3D网络中用于3D场景理解的。 2、作者提出了一种新的语义驱动的跨模态对比学习框架,该框架通过时空和语义一致性正则化来预训练3D网络。 3、作者提出了提出了一种新的语义引导的时空一致性正则化,该正则化强制时间相干点云特征与其对应的图像特征之间的一致性。 4、该方法首次在无注...
试想一下,如果我们要 “生成复活节岛的摩艾石像”,AI 怎么才能理解我们的需求,然后生成一个精美的三维场景? 斯坦福的研究团队提出了一个创新性解决方案:就像人类使用自然语言(natural language)进行交流,三维场景的构建需要场景语言(Scene Language)。 项目主页:https://ai.stanford.edu/~yzzhang/projects/scene-langu...
写在前面&出发点三维场景问答(3D SQA)是一项跨学科任务,它融合了三维视觉感知和自然语言处理,使智能体能够理解并与复杂的三维环境进行交互。大型多模态建模领域的最新进展推动了多种数据集的创建,并促进…
他们通过SceneVerse试图汇集现有大部分真实三维场景数据,并开发基于大语言模型的工具链进行有效地三维场景-语义数据生成,通过scaling来提升现有模型在三维场景理解方向上的效果。 然而,想要完成可泛化的具身智能体训练,尤其是涉及与场景的真实交互,需要大量的真实数据。但真实扫描数据很难被放入模拟器中,因此在数据量和质量...
这要求环境表征能从不同粒度上与语言语义对齐;且在未知场景的导航需要实时动态地更新环境表征,传统的基于低噪声点云的3D Visual Grounding等方法难以奏效,而2D基础模型难以理解大范围的三维环境布局。 为此,中科院计算所和新加坡国立大学等研究人员提出了基于网格记忆地图和三维特征场等一系列方法,包括动态构建地图表征方法...
1、三维场景理解数据集 随着深度学习的发展,数据集的意义愈发重要,本节将介绍三维场景理解领域常用的数据集。依据场景类型不同,可划分为室内场景数据集和室外场景数据集,数据集汇总见表1与表2。 1.1室内场景数据集 室内场景数据集多由 RGBD 相机采集,可得到 RGB 图像和深度图像。根据深度图像可以计算得到空间中的三...