Title:On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving Arxiv:https://arxiv.org/abs/2311.05332 Github:https://github.com/PJLab-ADG/GPT4V-AD-Exploration 1. 动机与概述 自动驾驶的发展瓶颈在于对复杂驾驶环境及其他道路使用者意图的准确理解。GPT-4V,...
该系统可以接受内容为人类行为的视频和文本指令等输入,甚至可以同时接受二者,并输出符号化的任务规划(即一系列连贯的任务步骤)。 论文地址:https://arxiv.org/pdf/2311.12015.pdf 代码即将公开:https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/ 当视觉数据可用时,系统会根据任务规划重新分析视频,...
该研究则旨在通过案例分析评估 GPT-4V (ision) 在多模态医疗诊断领域的性能,一共展现并分析共计了 128(92 个放射学评估案例,20 个病理学评估案例以及 16 个定位案例)个案例共计 277 张图像的 GPT-4V 问答实例(注:本文不会涉及案例展示,请参阅原论文查看具体的案例展示与分析)。 ArXiv 链接:https://arxi...
2、推理:在这一阶段,研究者深入评估了 GPT-4V 在自动驾驶环境下的因果推理能力。这项评估包括几个关键方面:首先,他们仔细研究了它在处理复杂 corner case(边缘情况,即发生概率较低的可能场景)时的表现,这些情况通常是对数据驱动感知系统的挑战。其次,他们评估了它在提供全景视图(surround view)方面的能力,...
论文链接:https://arxiv.org/abs/2310.14566 Github 地址:https://github.com/tianyilab/HallusionBench 作者对 HallusionBench 进行了深入探索,并详细分析了一些 SOTA LVLM(如GPT-4V 和 LLaVA-1.5)无法处理的示例,并发布了这份尚在进行中的初步报告。明确了这些失败案例主要由两个因素导致:语言幻觉和视觉...
团队介绍 本研究一共12位作者,基本都来自微软。共同一作两位。分别是加州大学圣地亚哥分校的博士生An Yan,以及微软的高级研究员Zhengyuan Yang,后者本科毕业于中科大,博士毕业于罗切斯特大学。参考链接:[1]https://arxiv.org/abs/2311.07562[2]https://x.com/emollick/status/1724272391595995329?s=20 ...
论文地址: https://arxiv.org/abs/2311.03287 代码地址: https://github.com/gzcch/Bingo 通过提出一种全新的「Bingo」基准测试,他们发现GPT-4V存在两种常见的幻觉类型:偏见和干扰。比如,GPT-4V的文本先验知识,是凌驾于视觉之上的。它会倾向于坚持常识或刻板印象,比如在并没有土星的太阳系图像中识别出土星...
同时,团队还发现,通过对抗攻击可以成功绕过 Bard 等模型对于人脸检测和图像毒性检测等防御机制,导致模型出现安全风险。论文链接:https://arxiv.org/abs/2309.11751 代码链接:https://github.com/thu-ml/ares/tree/attack_bard 图 1:对抗攻击多模态大模型示例,可以使模型产生错误预测或者绕过安全性检测模块 下...
论文地址:https://arxiv.org/pdf/2312.08914.pdf 在9个经典的跨模态基准(包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE)上,CogAgent-18B实现了最先进的通用性能。在AITW和Mind2Web等图形用户界面操作数据集上,它大大超过了现有模型。除了CogVLM已有的所有功能(可视化多轮...
可以看出,ViLa 具有像人类一样的常识,能在非常复杂的环境中控制机器人,为机器人提供任务规划。论文地址:https://arxiv.org/pdf/2311.17842.pdf论文主页:https://robot-vila.github.io/论文视频:https://www.youtube.com/watch?v=t8pPZ46xtuc 接下来,该研究详细介绍了 ViLa 这项研究成果。方法介绍 Vi...