最新版的 RT 机器人名叫「RT-H」,它能通过将复杂任务分解成简单的语言指令,再将这些指令转化为机器人行动,来提高任务执行的准确性和学习效率。举例来说,给定一项任务,如「盖上开心果罐的盖子」和场景图像,RT-H 会利用视觉语言模型(VLM)预测语言动作(motion),如「向前移动手臂」和「向右旋转手臂」,然后根据这些...
下表给出了在 Diverse+Kitchen 数据集或 Kitchen 数据集上训练时 RT-H、RT-H-Joint 和 RT-2 训练检查点的最小 MSE。RT-H 的 MSE 比 RT-2 低大约 20%,RTH-Joint 的 MSE 比 RT-2 低 5-10%,这表明行动层级有助于改进大型多任务数据集中的离线行动预测。RT-H (GT) 使用 ground truth MSE 指标,与...
RT-H 的 MSE 比 RT-2 低大约 20%,RTH-Joint 的 MSE 比 RT-2 低 5-10%,这表明行动层级有助于改进大型多任务数据集中的离线行动预测。RT-H (GT) 使用 ground truth MSE 指标,与端到端 MSE 的差距为 40%,这说明正确标记的语言动作对于预测行动具有很高的信息价值。 图4 展示了几个从 RT-H 在线评估...
如图2 所示,RT-H 有两个关键阶段:首先根据任务描述和视觉观察预测语言动作,然后根据预测的语言动作、具体任务、观察结果推断精确的行动。 RT-H 使用 VLM 主干网络并遵循 RT-2 的训练过程来进行实例化。与 RT-2 类似,RT-H 通过协同训练利用了互联网规模数据中自然语言和图像处理方面的大量先验知识。为了将这些先...
谷歌具身智能新研究:比RT-2优秀的RT-H来了 谷歌最新版的RT机器人「RT-H」来了,它能通过将复杂任务分解成简单的语言指令,再将这些指令转化为机器人行动,来提高任务执行的准确性和学习效率。举例来说,给定一项任务,如「盖上开心果罐的...
前言:今年以来,科技巨头们在具身智能领域的动作不断—— 谷歌 发布了融合视觉、语言、动作的RT系列机器人模型的新成果RT-H; 英伟达 在GTC大会上推出了人形机器人通用基础模型Project GR00T, 特斯拉 擎天柱Optimus机器人从叠衣服、散步到进厂“打工”,就连OpenAI也宣布
RT-H 在一系列机器人任务中的表现都优于 RT-2。随着 GPT-4等大型语言模型与机器人研究的结合愈发紧密,人工智能正在越来越多地走向现实世界,因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中,谷歌的「RT」系列机器人始终走在前沿(参见《大模型正在重构机器人, ...
AI小智 公众号:AI小智 【3月9-10日大模型日报】 谷歌具身智能新研究:比RT-2优秀的RT-H来了 多智能体互动框架ThinkThrice玩转剧本杀:基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了 用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成 ...
谷歌地球测距技巧
他的研究领域聚焦人工智能、神经网络、强化学习等,发布约188篇文章,Google Scholar h指数为59,被引用量84113次。 Vikas Sindhwani:Google DeepMind研究科学家,领导着一个专注于解决机器人领域规划、感知、学习和控制问题的研究小组。 他拥有芝加哥大学的计算机科学博士学位和印度理工学院(IIT)孟买分校的工程物理学士学位...