CVPR 2024技术前沿:视觉-语言导航中的体积环境表示 引言 随着人工智能技术的飞速发展,视觉-语言导航(Vision-Language Navigation, VLN)作为自然语言处理与计算机视觉的交叉领域,正逐渐成为研究热点。CVPR 2024作为计算机视觉领域的顶级会议,为我们带来了诸多关于VLN技术的新突破,其中体积环境表示(Volumetric Environment Represe...
视觉-语言导航任务(Vision-Language Navigation, VLN)是指在陌生环境中,无人系统依据语言指示和观测图像之间的跨模态匹配信息,进行自主智能路径导航的方法。不同于前进、后退等简单操控指令,VLN采用类似人人交互的语言指示,比如“走出右侧大门,穿过卧室和客厅,在绿色地毯上的餐桌旁停下”。VLN是一种新型的跨模态智能人机...
视觉-语言导航(VLN)是使具身智能体在真实场景中按照自然语言指令导航到远程位置的任务。以往的方法大多利用整个特征或以对象为中心的特征来表示可导航的候选特征。然而,这些表示不足以使智能体执行动作以到达目标位置。由于知识提供了与可见内容相补充的重要信息,本文提出了一种知识增强的推理模型(knowledge Enhanced Reas...
2、视觉-语言导航 如上图所示,在基于视觉与语言的导航(VLN)任务中,给定自然语言指令(走出浴室。左转,通过左侧的门离开房间。在那里等待。),希望智能体在虚拟环境中理解语言指令,并遵循该指令,按照给定的路线完成导航,到达规定的目的地。 第一篇 VLN 的工作发表于 2018 年的 CVPR,我们当时考虑如何把视觉-预言技术...
视觉-语言导航任务(Vision-Language Navigation, VLN)是指在陌生环境中,无人系统依据语言指示和观测图像之间的跨模态匹配信息,进行自主智能路径导航的方法。不同于前进、后退等简单操控指令,VLN采用类似人人交互的语言指示,比如“走出右侧大门,穿过卧室和客厅...
具体而言,在每一步导航中,AI代理感知视觉环境,接收来自人类的语言指令,并基于其对世界和人类的表征进行推理,以规划行动并高效完成导航任务。如图1所示,世界模型是代理理解周围外部环境以及其行动如何改变世界状态的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。该...
视觉语言导航,指的是让智能体跟着自然语言指令进行导航,同时理解指令与视角中可以看见的图像信息,然后在环境中对自身所处状态加以调整、修复,做出对应的动作,最终到达目标位置。比如,我们把机器人放置在一间卧室里,让它去取放在另一间卧室里的足球。因为房间无法通视,机器人需要走出房间,经过走廊、客厅等场所,...
人工智能研究的一个长期目标是构建能够用自然语言与人类交流、感知环境并执行现实世界任务的智能体。视觉和语言导航(VLN)是实现这一目标的一个基础性和跨学科的研究课题,越来越受到自然语言处理、计算机视觉、机器人和机器学习社区的关注。在本文中,我们回顾了VLN新兴领域的当代研究,包括任务、评估指标、方法等。通过对...
2月 17 日,澳大利亚阿德莱德大学副教授吴琦在青源 Talk 第 12期中带来了题为「视觉-语言导航新进展:Pre-training与Sim2Real」的报告。 吴琦首先简要介绍了「视觉-语言」导航任务的发展历史,进而介绍了考虑历史信息和顺序关系的VLN 预训练方法 HOP。 由于仿真环境和现实场景存在一定的差距,吴以如何将离散环境下训练的...
视觉-语言导航任务是指通过自然语言指令引导智能体在真实环境中运动。VLN 需要深度理解语言语义和视觉感知,最重要的是要实现这两者的对齐。智能体必须推理与视觉-语言动态相关的信息,以移动到根据指令推断出的目标。 在VLN任务中有一些独特的挑战。第一,根据视觉图像和自然语言指令进行推理可能很困难。即为了到达目标点...