中国人民大学高瓴人工智能学院GeWu-Lab拟在2024年招收博士生和硕士生若干名(2025年9月正式入学),同时也长期开放研究助理的申请(通过实验室面试即可加入),具体说明如下: 研究方向 实验室的主要研究方向为机器多模态感知与学习,即以大脑的多通道知觉为背景,挖掘并探究多模态信息(如图像、声音、触觉等)在机器感知、推...
代码链接:https://github.com/GeWu-Lab/Diagnosing_Relearning_ECCV2024 模态内在局限性 在一般的多模态联合学习中,人们发现,由于模态之间在特性和信息量等方面存在差异,某些模态更容易被学习,导致模型在训练过程中对这些模态产生偏好,从而主导训练进程。这种情况使得其他模态未能得到充分学习,进而限制了多模态学习的整体...
项目主页:https://gewu-lab.github.io/stepping_stones/ 代码链接:https://github.com/GeWu-Lab/Stepping-Stone Background 视听语义分割(Audio-Visual Semantic Segmentation, AVSS)是一项复杂而具有挑战性的任务,要求模型同时建立视觉和听觉两个模态的精确对齐和对视听场景的语义理解。然而,我们发现,这种任务目标的...
代码链接:github.com/GeWu-Lab/Gen 概述 从未同时看到一个物体和听到它的声音,模型还能准确根据音频输入定位其视觉位置吗?传统视听分割研究工作 [1, 2, 3] 专注于编码-融合-解码(Encoder-Fusion-Decoder)范式,即基于融合的多模态特征学习视听相关性以实现发声物体的定位。然而,视听分割数据的稀缺性以及在现实应用...
代码链接: github.com/GeWu-Lab/MS- 视频介绍 0 引言 人类在与环境互动时展现出了令人惊叹的感官协调能力。以一位厨师为例,他不仅能够凭借直觉掌握食材添加的最佳时机,还能通过观察食物的颜色变化、倾听烹饪过程中的声音以及嗅闻食物的香气来精准调控火候,从而无缝地完成烹饪过程中的每一个复杂阶段。在执行复杂且长...
Github: github.com/GeWu-Lab/Ste 论文简介:Audio-Visual Segmentation(AVS)旨在实现视频中声源的像素级定位,而Audio-Visual Semantic Segmentation (AVSS)作为AVS的扩展,进一步追求对Audio-Visual场景的语义理解。然而,由于AVSS任务要求同时建立Audio-Visual模态间的对应关系和对于语义的理解,我们观察到以往的方法在端到端...
人大GeWu-Lab招募RA 中国人民大学高瓴人工智能学院GeWu-Lab现面向本科生招募实习生,欢迎大二、大三的优秀学生加入。导师胡迪老师现任准聘副教授,研究方向为机器多模态感知与学习,已在领域顶级国际会议及期刊上发表多篇论文。实验室欢迎对机器学习、人工智能感兴趣的同学申请实习,具体信息如下:...
代码链接:github.com/GeWu-Lab/Dep 在正式开始介绍之前,我们首先讨论两个概念。 第一个概念是基于RGB图像的单模态具身模型,近几年出现的具身模型基本上都是基于RGB图像来做决策的。对这类具身模型的研究意义在于,对于大部分具身智能的研究场景,人类只依赖于接收到的视觉信息就可以作出决策,而我们对具身智能模型的期...
代码链接:github.com/GeWu-Lab/Ref Ref-AVS任务: 当指代分割遇见视听场景 传统的指代分割(Reference Segmentation)任务主要集中于静默的视觉场景,忽视了多模态感知和交互在实际应用中的重要作用。在现实世界中, 视觉场景通常伴随着多种多模态信息,包括音频和文本模态。这些额外的多模态信息提供的时空和语义线索有助于人...
代码链接:github.com/GeWu-Lab/LLM 概述 可泛化的铰链物体操纵对于家用机器人来说是十分重要的。近期的研究工作集中在通过示例数据进行模仿学习[1]和在仿真环境中强化学习[2]。然而,由于实际数据收集的高昂成本和对仿真环境精确性的依赖,这些工作往往难以在多样化的物体操纵任务上实现有效的泛化。近期,一些研究尝试利用...