近日,GPT-4V (ision) 由于出色的多模态感知和推理能力得到了大家格外的关注。然而,尽管 GPT-4V 具有前所未有的视觉语言理解能力,但其细粒度 visual grounding(输入是图片和对应的物体描述,输出是描述物体的 box)能力相对较弱,或者尚未发挥出来。举例来说,当用户询问下图中「放置在右边笔记本电脑的左边是什么物...
通过利用多视角摄像头,GPT-4V 可以捕捉驾驶环境的全面视图,该研究评估了 GPT-4V 处理多视图图像的能力。如下图 16 所示,该研究选择使用一组周围环境图像并以正确的顺序将它们输入到模型中。结果表明,GPT-4V 能够熟练地识别场景中的各种元素,例如建筑物、车辆、障碍物和停车场,甚至可以从重叠的信息中推断出场...
但是OpenAI总裁Greg Brockman自己却在X(推特)上,不断转发利用新版的GPT-4来实现的各种天马行空的功能。利用GPT-4V的多模态能力和代码能力,直接把一个写在书上的数学公式转化成一段Python代码。而利用GPT-4刚更新不久的语音功能,有人开始把它当成商务谈判的教练来进行模拟练习了。就在这个帖子下面,这位帝国理工...
其原因在于 GPT-4V 很可能存在:视觉编码漏洞。该工作对当前最强的商业大模型 GPT-4V 和最受欢迎的开源模型 LLaVA-1.5 进行了实验,揭示了目前多模态大模型中的视觉编码漏洞。漏洞 1:GPT-4V 将图像进行有重叠的切片后再编码 作者首先设计了一个实验来观察:图像中的位置如何影响 GPT-4V 的计数回答。具体来说...
无需任何训练,GPT-4V就能直接像人类一样与智能手机进行交互,完成各种指定命令。比如让它在50-100美元的预算内购买一个打奶泡的工具。它就能像下面这样一步一步地完成选择购物程序(亚马逊)并打开、点击搜索栏输入“奶泡器”、找到筛选功能选择预算区间、点击商品并完成下单这一系列共计9个操作。根据测试,GPT-4V...
最近,来自清华大学交叉信息研究院的研究者提出「ViLa」算法,实现了让 GPT-4V 走进物理世界中,为机器人操作日常生活物品提供任务规划。ViLa 全称是 Robotic Vision-Language Planning,它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现...
GPT-4V-Act,本质上是一个基于Web浏览器的AI多模态助手(Chromium Copilot)。它可以像人类一样用鼠标、键盘和屏幕“查看”网页界面,并通过网页中的交互按键进行下一步操作。要实现这种效果,除了GPT-4V以外,还用到了三个工具。一个是UI界面,可以让GPT-4V“看见”网页截图,也能让用户与GPT-4V发生交互。这样...
但要让它们基于当前观测来对未来事件进行预测推理仍然非常困难。即便是当前最强大的GPT-4V(如下图所示),也无法很好地解决这一问题。△ GPT-4V的错误案例 现在,华科大和上科大团队提出了一个赋予多模态大语言模型前瞻性思维的学习范式,并基于这一范式构建了多模态大语言模型Merlin(梅林)。Merlin(梅林)是亚瑟...
两只眼睛其实都是灰色,但让GPT-4V来描述图像时,它回答一只为蓝色,另一只做了灰度处理,无法得知颜色。(3)这张就更别提了,直接被糊弄地死死的。当然,这确实很难,大部分人类也识别不出来所有的球其实都是棕色。其次是会产生动态错觉的图。(1)有一点意外,当我们问GPT-4V“你看见了什么?描述细节”时,...