科技日报成都8月12日电 (刘侠 记者滕继濮)12日,成都人形机器人创新中心(以下简称“创新中心”)在四川成都发布了我国首个机器人多模态模型以及双臂协作系统。该模型能够使机器人理解、推理抽象的语义指令,并调度双臂协作系统执行任务。多模态数据协同推理是指融合两种或两种以上不同感知来源,进行综合推理,并完成...
随着人工智能和机器人技术的飞速发展,多模态机器人正逐渐从科幻小说走进现实生活。在众多应用场景中,酒店行业以其独特的服务需求和环境,成为多模态机器人应用的前沿阵地。而多模态机器人是指具备多种感知、交互和行动模式的机器人系统。它们能够通过视觉、语音、触觉等多种方式与环境和人类进行交互,执行复杂的任务。...
本文结合MLLM的原理,提出一种新型的原生多模态机器人操作模型 RoboMM,该模型具有 3D 环境感知能力,可处理多模态输入(文本T、视觉I、相机参数Cam)和输出(动作O/A、图像O/I、占用O/o): RoboMM由以下关键组件组成:(1)视觉编码器模块:用于从H个时间步长和N个视角提取观察特征F^h,n/I。(2)3D 感知适配器模块...
8月12日,成都人形机器人创新中心(简称“中心”)发布最新研发成果:中国首个机器人多模态模型RRMM(Raydiculous Robot Multimodal Model)及双臂协作系统RTACS(Raydiculous Two-Arm Cooperation System)。据悉,多模态模型(RRMM)能使机器人理解推理抽象的语义指令,并调度双臂协作系统(RTACS)执行任务。“目前仅Open...
图 1. RoboMamba 具备的机器人相关能力,其中包括任务规划、提示性任务规划、长程任务规划、可操纵性判断、可操纵性生成、未来与过去预测、末端执行器位姿预测等。摘要 机器人操纵的一个基本目标是使模型能够理解视觉场景并执行动作。尽管现有的机器人多模态大模型(MLLM)可以处理一系列基本任务,但它们仍然面临两个...
机器人“大脑”可以利用多模态大模型技术,实现视觉、听觉、触觉、语言等多种信息的融合和处理,从而提高机器人的智能水平和交互能力。这与《指导意见》提出的“开发基于人工智能大模型的人形机器人‘大脑’,增强环境感知、行为控制、人机交互能力,推动云端和边缘端智能协同部署”的目标是一致的。但从现实发展状况来看...
单独使用大型语言模型或者将视觉、语言、视觉 - 语言模型组合起来使用似乎都给机器人提供了很大的帮助,那如果直接训练一个更大的、单一的大型多模态模型呢?最近,谷歌在这一方向上投入了大量资源,推出了一个参数量达 5620 亿的具身多模态语言模型 —— PaLM-E。具体来说, PaLM-E-562B 集成了参数量 540B 的...
国内首款多模态AI交互四足机器人发布,蔚蓝首款人形机器人明年四季度量产|钛媒体AGI 钛媒体App 9月28日消息,国内智能机器人公司“蔚蓝科技”于26日公布四足机器人BabyAlpha A2(即二代),聚焦家庭场景,这是国内首款具备多模态交互能力的 AI 机器人,产品售价低至1万元以内。同时,蔚蓝科技还宣布推出人形机器人...
经过多年的传感器融合和 AI 演进,机器人现阶段基本上都配备有多模态传感器。随着我们为机器人等边缘设备带来更多的计算能力,这些设备正变得愈加智能,它们能够感知周围环境,理解并以自然语言进行沟通,通过数字传感界面获得触觉,以及通过加速计、陀螺仪与磁力计等的组合,来感知机器人的比力、角速度,甚至机器人周围的...
尽管现有的机器人多模态大语言模型(MLLM) 可以处理一系列基本任务,但它们仍然面临两个方面的挑战:1) 推理能力不足以处理复杂任务,2) MLLM 微调和推理的计算成本高。最近提出的状态空间模型(SSM) 称为 Mamba,在具有线性推理复杂性的非平凡序列建模中展示了良好的能力。受此启发,推出 RoboMamba,这是一种端到端...