提出了一种新颖的端到端、闭环、基于语言的自动驾驶框架LMDrive,该框架通过多模态多视图传感器数据和自然语言指令与动态环境进行交互。 提供了一个包含约64K数据片段的数据集,每个片段包括一个导航指令、几个注意指令、一系列多模态多视图传感器数据和控制信号。片段的长度从2秒到20秒不等。 提出了一个名为LangAuto的...
【五号雷达-数据快讯】DriveLM - 图视觉问答自动驾驶数据集 DriveLM由上海人工智能实验室(上海AI实验室)联合德国图宾根大学、图宾根人工智能中心推出,是首个含图结构的“语言+自动驾驶”全栈开源数据集。该数据集基于nuScenes自动驾驶数据集和CARLA仿真模拟器构建,以场景级别的描述、关键帧级别的问答对(Description+Q&A)...
DriveLM是一个基于nuScenes自动驾驶数据集构建的、以关键帧描述+问答对(Description+Q&A)为核心的数据集。 数据集中的问答对主要可以分为三类:感知(Perception)、预测(Prediction)和规划(Planning)。感知部分着重于询问物体相对自车的位置或运动状态;预测部分询问车辆或行人的未来可能行为和状态;规划部分询问自车可以采取...
为了提供在第2.1节中定义的图结构中具有全面性和准确性的 QA,作者引入了DriveLM-nuScenes和DriveLM-CARLA。由于nuScenes和CARLA之间存在显著的差异,这些数据集的收集方法和统计信息不同。 DriveLM-nuScenes:将标注过程分为三个步骤:从视频中选择关键帧,在这些关键帧中选择关键物体,然后对这些关键物体的帧级P_{1-3}...