CityDreamer4D: 下一个世界模型,何必是视频生成模型? 在过去的两年里,城市场景生成技术迎来了飞速发展,一个全新的概念 ——世界模型(World Model)也随之崛起。当前的世界模型大多依赖Video Diffusion Models(视频扩散模型)强大的生成能力,在城市场景合成方面取得了令人瞩目的突破。然而,这些方法始终面临一个关键挑战:如...
现有的机器人动作规划方法,往往因为缺乏对动态操作空间的深入理解和长序任务的记忆处理能力不足而表现不佳,而已有的基于2D视频生成的world model又难以准确表达复杂的3D关系。为了解决这一问题,智元机器人提出了机器人领域首个4D世界模型EnerVerse,将生成式空间智能与机器人动作预测相结合,使机器人能够更高效、更准...
现有的机器人动作规划方法,往往因为缺乏对动态操作空间的深入理解和长序任务的记忆处理能力不足而表现不佳,而已有的基于2D视频生成的world model又难以准确表达复杂的3D关系。为了解决这一问题,研究团队提出了机器人领域4D世界模型EnerVerse,将生成式空间智能与机器人动作...
现有的机器人动作规划方法,往往因为缺乏对动态操作空间的深入理解和长序任务的记忆处理能力不足而表现不佳,而已有的基于2D视频生成的world model又难以准确表达复杂的3D关系。为了解决这一问题,智元机器人提出了机器人领域首个4D世界模型EnerVerse,将生成式空间智能与机器人动作预测相结合,使机器人能够更高效、更准确地...
近来,自动驾驶世界模型(World Model)证明其可以生成丰富驾驶数据。在此背景下,本文提出了 DriveDreamer4D,是首个利用世界模型来提升自动驾驶场景 4D 重建质量的算法。DriveDreamer4D 可以为驾驶场景提供丰富多样的视角(包括变道、加速和减速等)数据,以增加动态驾驶场景下的闭环仿真能力。DriveDreamer4D 利用世界模型...
目前的传感器仿真方法,如 NeRF 与 3DGS,主要依赖于训练数据分布,若训练数据不足,则这些方法在复杂驾驶操作(例如变道、加速或减速)的重建效果不佳。近来,自动驾驶世界模型(World Model)证明其可以生成丰富驾驶数据。在此背景下,本文提出了 DriveDreamer4D,是首个利用世界模型来提升自动驾驶场景 4D 重建质量的算法。
目前的传感器仿真方法,如 NeRF 与 3DGS,主要依赖于训练数据分布,若训练数据不足,则这些方法在复杂驾驶操作(例如变道、加速或减速)的重建效果不佳。近来,自动驾驶世界模型(World Model)证明其可以生成丰富驾驶数据。在此背景下,本文提出了 DriveDreamer4D,是首个利用世界模型来提升自动驾驶场景 4D 重建质量的算法。
现有的机器人动作规划方法,往往因为缺乏对动态操作空间的深入理解和长序任务的记忆处理能力不足而表现不佳,而已有的基于2D视频生成的world model又难以准确表达复杂的3D关系。为了解决这一问题,智元机器人提出了机器人领域首个4D世界模型EnerVerse,将生成式空间智能与机器人动作预测相结合,使机器人能够更高效、更准确...
[4] Wang, L., et al. (2024). OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving. arXiv preprint arXiv:2405.20337.[5] Gu, S, et al. "DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model". arXiv, 2024.[6] Fridovich-Keil,...
本文引入一种基于世界模型的自动驾驶 4D 表示学习框架(称为 DriveWorld)来应对这一挑战,该框架能够以时空方式对多摄像头驾驶视频进行预训练。具体来说,提出一种用于时空建模的记忆-状态空间模型(Memory State- Space Model),它包括一个用于学习时域-觉察潜动态提供全面场景上下文预测未来变化的动态记忆库(Dynamic ...