2、推理:在这一阶段,研究者深入评估了 GPT-4V 在自动驾驶环境下的因果推理能力。这项评估包括几个关键方面:首先,他们仔细研究了它在处理复杂 corner case(边缘情况,即发生概率较低的可能场景)时的表现,这些情况通常是对数据驱动感知系统的挑战。其次,他们评估了它在提供全景视图(surround view)方面的能力,...
论文链接:https://arxiv.org/pdf/2403.11703.pdf项目链接:github.com/thunlp/LLaVA-UHD 其原因在于 GPT-4V 很可能存在:视觉编码漏洞。该工作对当前最强的商业大模型 GPT-4V 和最受欢迎的开源模型 LLaVA-1.5 进行了实验,揭示了目前多模态大模型中的视觉编码漏洞。漏洞 1:GPT-4V 将图像进行有重叠的切片...
马里兰大学的研究团队在探索过程中发现了这些问题,并在此基础上提出了两种主要的错误类型:语言幻觉和视觉错觉,以此来阐释这些错误的原因。 论文链接:https://arxiv.org/abs / 2310.14566 项目主页:https://github.com/tianyi-lab / HallusionBench 研究人员依据上述分析,创建了一个名为 HallusionBench 的图像-语境...
我想这些目前都还没有标准答案,需要各位研究者们进一步深入的探索。最后希望Merlin这个工作能给多模态大模型社区带来一些新的思考和认知,也欢迎大家持续关注我们的工作,多多交流。论文:https://arxiv.org/pdf/2312.00589.pdf — 完 —
团队介绍 本研究一共12位作者,基本都来自微软。共同一作两位。分别是加州大学圣地亚哥分校的博士生An Yan,以及微软的高级研究员Zhengyuan Yang,后者本科毕业于中科大,博士毕业于罗切斯特大学。参考链接:[1]https://arxiv.org/abs/2311.07562[2]https://x.com/emollick/status/1724272391595995329?s=20 ...
同时,团队还发现,通过对抗攻击可以成功绕过 Bard 等模型对于人脸检测和图像毒性检测等防御机制,导致模型出现安全风险。论文链接:https://arxiv.org/abs/2309.11751 代码链接:https://github.com/thu-ml/ares/tree/attack_bard 图 1:对抗攻击多模态大模型示例,可以使模型产生错误预测或者绕过安全性检测模块 下...
可以看出,ViLa 具有像人类一样的常识,能在非常复杂的环境中控制机器人,为机器人提供任务规划。论文地址:https://arxiv.org/pdf/2311.17842.pdf论文主页:https://robot-vila.github.io/论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc 接下来,该研究详细介绍了 ViLa 这项研究成果。方法介绍 Vi...
https://arxiv.org/pdf/2312.08592.pdf 实验数据 作者使用了居住在伦敦的肯尼亚和加纳裔成年人的饮食摄入数据。为每位参与者分配了eButton或AIM摄像机被动记录他们的饮食摄入量。使用标准化的Salter breknell体重秤记录食物初始重量和吃饱后剩余...
论文链接:https://arxiv.org/pdf/2403.11703.pdf 项目链接:http://github.com/thunlp/LLaVA-UHD 其原因在于 GPT-4V 很可能存在:视觉编码漏洞。 该工作对当前最强的商业大模型 GPT-4V 和最受欢迎的开源模型 LLaVA-1.5 进行了实验,揭示了目前多模态大模型中的视觉编码漏洞。
论文地址: https://arxiv.org/abs/2311.03287 代码地址: https://github.com/gzcch/Bingo 通过提出一种全新的「Bingo」基准测试,他们发现GPT-4V存在两种常见的幻觉类型:偏见和干扰。比如,GPT-4V的文本先验知识,是凌驾于视觉之上的。它会倾向于坚持常识或刻板印象,比如在并没有土星的太阳系图像中识别出土星...