而连续环境中的视觉和语言导航任务(Vision-and-Language Navigation in Continuous Environments,VLN-CE)[1] 便是其中的一项特定任务,并被视为人机交互领域在具身智能上的重要延伸。 具体而言,该任务通过自然语言指令控制无人系统在 3D ...
视觉语言导航(VLN)是一个新兴的研究领域,旨在构建一种可以用自然语言与人类交流并在真实的3D环境中导航的具身代理,与计算机视觉、自然语言处理和机器人等研究领域紧密关联。视觉语言导航任务要求构建的具身代理能够根据语言指令推理出导航路径,然而,稀疏的语言指令数据集限制着导航模型的性能,研究者们又提出了一些能够根据...
从科学角度来看,开发这样一个智能体探索了人工智能体如何从人类那里解释自然语言,感知其视觉环境,并利用这些信息来导航以成功完成任务。 视觉和语言导航(VLN)是一个新兴的研究领域,旨在构建一种能够用自然语言与人类通信并在真实3D环境中导航的嵌入式智能体。VLN通过自然语言通信扩展了模拟和真实环境中的视觉导航。如图1...
近几年极为热门的研究方向视觉语言导航(Vision-and-Language Navigation,VLN)发展迅速。 今天的分享的ACL 2022论文是对视觉语言导航领域做了一个系统的综述,回顾了VLN的任务、数据集、评测机制和方法等,并对未来方向做出了展望。 本期AI Drive,我们邀请到加州大学圣克鲁兹分校的在读博士生-古静,为大家在线解读其发表...
多模态领域中的视觉语言导航任务研究 现有的导航命令生成方法 视觉语言导航中的对偶学习 基于反事实推理的导航场景生成 课程简介 「AI新青年讲座」将邀请世界顶尖AI研究机构和大学的科研新青年,主讲他们在计算机视觉、机器学习等人工智能领域的最新重要研究成果。
2月 17 日,澳大利亚阿德莱德大学副教授吴琦在青源 Talk 第 12期中带来了题为「视觉-语言导航新进展:Pre-training与Sim2Real」的报告。 吴琦首先简要介绍了「视觉-语言」导航任务的发展历史,进而介绍了考虑历史信息和顺序关系的VLN 预训练方法 HOP。 由于仿真环境和现实场景存在一定的差距,吴以如何将离散环境下训练的...
1、测试集:R2R(Room-to-Room)Dataset;视觉语言导航任务中一个真实 3D环境的数据集,包含 7189 条路径,捕捉了大部分的视觉多样性,21567 条人工注释指令,其平均长度为 29 个单词。 2、评价指标 PL:路径长度(Path Length) NE:导航误差(Navigation Error) ...
因此,REVERIE更加清晰地反映了机器人需要理解语言、逻辑推理、图像物体定位等能力的必要性。此外,REVERIE中简洁的语言指令充分模拟了真实世界中人类使用家政机器人的场景。这些简洁的指令也使得REVERIE任务与使用详细繁杂导航指令VLN任务[1]区分开来,并将推进高层次视觉-语言推理的研究和机器人的广泛应用。相对Referring ...
因此,REVERIE更加清晰地反映了机器人需要理解语言、逻辑推理、图像物体定位等能力的必要性。 此外,REVERIE中简洁的语言指令充分模拟了真实世界中人类使用家政机器人的场景。这些简洁的指令也使得REVERIE任务与使用详细繁杂导航指令VLN任务[1]区分开来,并将推进高层次视觉-语言推理的研究和机器人的广泛应用。相对Referring ...
视觉和语言导航任务 (Visual-and-Language Navigation,缩写为 VLN)定义了这样一个问题:agent 被随机放置于一个逼真的未知场景中,在自然语言指令的指引下,agent 要找到指定的地点。抽象来看如下图所示(下图是俯视图),agent 被放置在 start 点,通过一系列转向前进等操作找到目的地 goal。