gpt-4v+arxiv

2025-04-17 21:01:28

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了

2、推理：在这一阶段，研究者深入评估了 GPT-4V 在自动驾驶环境下的因果推理能力。这项评估包括几个关键方面：首先，他们仔细研究了它在处理复杂 corner case（边缘情况，即发生概率较低的可能场景）时的表现，这些情况通常是对数据驱动感知系统的挑战。其次，他们评估了它在提供全景视图（surround view）方面的能力，...
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提LLaVA-UHD

论文链接：https://arxiv.org/pdf/2403.11703.pdf项目链接：github.com/thunlp/LLaVA-UHD 其原因在于 GPT-4V 很可能存在：视觉编码漏洞。该工作对当前最强的商业大模型 GPT-4V 和最受欢迎的开源模型 LLaVA-1.5 进行了实验，揭示了目前多模态大模型中的视觉编码漏洞。漏洞 1：GPT-4V 将图像进行有重叠的切片...
最新基准测试显示 GPT-4V 错误率竟高达 90%:红绿灯认错、勾股定理...

马里兰大学的研究团队在探索过程中发现了这些问题,并在此基础上提出了两种主要的错误类型:语言幻觉和视觉错觉,以此来阐释这些错误的原因。论文链接:https://arxiv.org/abs / 2310.14566 项目主页:https://github.com/tianyi-lab / HallusionBench 研究人员依据上述分析,创建了一个名为 HallusionBench 的图像-语境...
GPT-4V都搞不明白的未来推理有解法了!来自华科大&上科大

我想这些目前都还没有标准答案，需要各位研究者们进一步深入的探索。最后希望Merlin这个工作能给多模态大模型社区带来一些新的思考和认知，也欢迎大家持续关注我们的工作，多多交流。论文：https://arxiv.org/pdf/2312.00589.pdf — 完 —
用GPT-4V“操纵”iPhone,无需训练可完成任意指令

团队介绍本研究一共12位作者，基本都来自微软。共同一作两位。分别是加州大学圣地亚哥分校的博士生An Yan，以及微软的高级研究员Zhengyuan Yang，后者本科毕业于中科大，博士毕业于罗切斯特大学。参考链接：[1]https://arxiv.org/abs/2311.07562[2]https://x.com/emollick/status/1724272391595995329?s=20 ...
清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?

同时，团队还发现，通过对抗攻击可以成功绕过 Bard 等模型对于人脸检测和图像毒性检测等防御机制，导致模型出现安全风险。论文链接：https://arxiv.org/abs/2309.11751 代码链接：https://github.com/thu-ml/ares/tree/attack_bard 图 1：对抗攻击多模态大模型示例，可以使模型产生错误预测或者绕过安全性检测模块下...
当GPT-4V充当机器人大脑,可能你都没AI会规划

可以看出，ViLa 具有像人类一样的常识，能在非常复杂的环境中控制机器人，为机器人提供任务规划。论文地址：https://arxiv.org/pdf/2311.17842.pdf论文主页：https://robot-vila.github.io/论文视频：https://www.youtube.com/watch?v=t8pPZ46xtuc 接下来，该研究详细介绍了 ViLa 这项研究成果。方法介绍 Vi...
因吹斯汀!只需上传照片,GPT-4V精准识别食物的卡路里和摄入热量

https://arxiv.org/pdf/2312.08592.pdf 实验数据作者使用了居住在伦敦的肯尼亚和加纳裔成年人的饮食摄入数据。为每位参与者分配了eButton或AIM摄像机被动记录他们的饮食摄入量。使用标准化的Salter breknell体重秤记录食物初始重量和吃饱后剩余...
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD...

论文链接:https://arxiv.org/pdf/2403.11703.pdf 项目链接:http://github.com/thunlp/LLaVA-UHD 其原因在于 GPT-4V 很可能存在:视觉编码漏洞。该工作对当前最强的商业大模型 GPT-4V 和最受欢迎的开源模型 LLaVA-1.5 进行了实验,揭示了目前多模态大模型中的视觉编码漏洞。
UNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!

论文地址: https://arxiv.org/abs/2311.03287 代码地址: https://github.com/gzcch/Bingo 通过提出一种全新的「Bingo」基准测试，他们发现GPT-4V存在两种常见的幻觉类型：偏见和干扰。比如，GPT-4V的文本先验知识，是凌驾于视觉之上的。它会倾向于坚持常识或刻板印象，比如在并没有土星的太阳系图像中识别出土星...

快搜汉语词典

gpt-4v+arxiv

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

GPT-4V在自动驾驶上应用前景如何?面向真实场景的全面测评来了

揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提LLaVA-UHD

最新基准测试显示 GPT-4V 错误率竟高达 90%:红绿灯认错、勾股定理...

GPT-4V都搞不明白的未来推理有解法了!来自华科大&上科大

用GPT-4V“操纵”iPhone,无需训练可完成任意指令

清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?

当GPT-4V充当机器人大脑,可能你都没AI会规划

因吹斯汀!只需上传照片,GPT-4V精准识别食物的卡路里和摄入热量

揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD...

UNC斯坦福等曝光GPT-4V意外漏洞,被人类哄骗数出8个葫芦娃!

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索