谷歌具身智能新研究:比RT-2优秀的RT-H来了 谷歌最新版的RT机器人「RT-H」来了,它能通过将复杂任务分解成简单的语言指令,再将这些指令转化为机器人行动,来提高任务执行的准确性和学习效率。举例来说,给定一项任务,如「盖上开心果罐的...
RT-H 的 MSE 比 RT-2 低大约 20%,RTH-Joint 的 MSE 比 RT-2 低 5-10%,这表明行动层级有助于改进大型多任务数据集中的离线行动预测。RT-H (GT) 使用 ground truth MSE 指标,与端到端 MSE 的差距为 40%,这说明正确标记的语言动作对于预测行动具有很高的信息价值。 图4 展示了几个从 RT-H 在线评估...
下表给出了在 Diverse+Kitchen 数据集或 Kitchen 数据集上训练时 RT-H、RT-H-Joint 和 RT-2 训练检查点的最小 MSE。RT-H 的 MSE 比 RT-2 低大约 20%,RTH-Joint 的 MSE 比 RT-2 低 5-10%,这表明行动层级有助于改进大型多任务数据集中的离线行动预测。RT-H (GT) 使用 ground truth MSE 指标,与...
谷歌具身智能新研究:比RT-2优秀的RT-H来了 谷歌最新版的RT机器人「RT-H」来了,它能通过将复杂任务分解成简单的语言指令,再将这些指令转化为机器人行动,来提高任务执行的准确性和学习效率。举例来说,给定一项任务,如「盖上开心果罐的盖子」和场景图像,RT-H会利用视觉语言模型(VLM)预测语言动作(motion),如「向...
实际上,看似不同的任务之间具备一些共享结构,例如这些任务中每一个都需要一些拾取行为来开始任务,并且通过学习跨不同任务的语言动作的共享结构,RT-H 可以完成拾取阶段而无需任何修正。 即使当 RT-H 不再能够泛化其语言动作预测时,语言动作修正通常也可以泛化,因此只需进行一些修正就可以成功完成任务。这表明语言动作...
RT-H 在一系列机器人任务中的表现都优于 RT-2。 随着GPT-4 等大型语言模型与机器人研究的结合愈发紧密,人工智能正在越来越多地走向现实世界,因此具身智能相关的研究也正受到越来越多的关注。在众多研究项目中,谷歌的「RT」系列机器人始终走在前沿(参见《大模型正在重构机器人,谷歌 Deepmind 这样定义具身智能的未来...
这个行动层级(action hierarchy)对于提高机器人完成任务的准确性和学习效率非常有帮助,使得 RT-H 在一系列机器人任务中的表现都优于 RT-2。 以下是论文的详细信息。 论文概览 论文标题:RT-H: Action Hierarchies Using Language 论文链接:https://arxiv.org/pdf/2403.01823.pdf ...
RT-H在受控多任务数据集中的卓越性能虽然令人印象深刻,但可能无法准确预测其在不可预测和非结构化现实世界中的有效性。机器人的适应性,通过预先定义的任务来衡量,并不一定等同于现实世界的智能和稳健性,而在不同领域泛化的能力至关重要。RT-H要证明其勇气,必须证明其语言动作层次结构能够应对现实场景的复杂性和动态...
【3月9-10日大模型日报】 谷歌具身智能新研究:比RT-2优秀的RT-H来了 多智能体互动框架ThinkThrice玩转剧本杀:基于DiT,支持4K图像生成,华为诺亚0.6B文生图模型PixArt-Σ来了 用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成 推特:吴恩达:当我们达到 AGI 时,它的到来将是缓慢的 ...
50ayIsICJhaWQiOiAxLCAiaG9zdCI6ICIxMzkuMTgwLjIwNi45NiIsICJpZCI6ICI3NjJmNTBmNy0yMjY0LTM1MTAtOWZiYS02ZDNlMzlhYzYyM2UiLCAibmV0IjogIndzIiwgInBhdGgiOiAiL3R6IiwgInBvcnQiOiAyOTAwMSwgInBzIjogImdpdGh1Yi5jb20vZnJlZWZxIC0gXHU2ZTU2XHU1MzU3XHU3NzAxXHU4MDU0XHU5MDFhNTAuOTciLCAidGxzIjogIm5vbmUiLCA...