首先它将LLM的语言决策输出,和成熟模块化方案中规控部分的决策状态对齐,由此LLM输出的语言信号就可转化为车辆控制信号。 其次,DriveMLM的MLLM planner模块,包含多模态分词器(Multi-modal tokenizer)和MLLM解码器两个部分。 前者负责将摄像头、激光雷达、用户语言需求、交通规则等各种输入转化为统一的token embedding;后者...
首先它将LLM的语言决策输出,和成熟模块化方案中规控部分的决策状态对齐,由此LLM输出的语言信号就可转化为车辆控制信号。 其次,DriveMLM的MLLM planner模块,包含多模态分词器(Multi-modal tokenizer)和MLLM解码器两个部分。 前者负责将摄像头、激光雷达、用户语言需求、交通规则等各种输入转化为统一的token embedding;后者...
首先它将LLM的语言决策输出,和成熟模块化方案中规控部分的决策状态对齐,由此LLM输出的语言信号就可转化为车辆控制信号。 其次,DriveMLM的MLLM planner模块,包含多模态分词器(Multi-modal tokenizer)和MLLM解码器两个部分。 前者负责将摄像头、激光雷达、用户语言需求、交通规则等各种输入转化为统一的token embedding;后者...