除了人物,地标建筑对于GPT-4V来说同样是小菜一碟,不仅能判断名称和所在地,还能给出详细的介绍。△左:纽约时代广场,右:京都金阁寺 不过越是有名的人和地点,判断起来也就越容易,所以要难度更大的图才能展现GPT-4V的能力。比如医学影像,针对下面这张肺部CT,GPT-4V给出了这样的结论:双肺多个区域存在实变和...
比如让它从下面的图中开启隐身模式,直接给了wifi处于的“11”位置,完全不搭嘎。此外,除了这种简单的单步任务,测试也发现GPT-4V完全可以不需训练就胜任“买起泡器”这样的复杂指令。在这个过程中,我们可以看到GPT-4V事无巨细地列出每一步该干什么,以及对应的数字坐标。最后,是安卓机上的测试。整体来看,比其...
下图表明GPT-4V能够理解图像中人与物体之间的空间关系,例如识别飞盘和人之间的空间关系。 GPT-4V能够确定图像中指定物体的数量,下图表明GPT-4V成功地计算出图像中出现的物体的数量,如苹果、橘子和人。 GPT-4V成功地定位和识别图像中的个体,然后为每个个体提供简洁的描述。 4.3节介绍了GPT-4V能够进行多模态理解以及对...
GPT-4V,就是Siri终结的开始。 一项研究发现: 无需任何训练,GPT-4V就能直接像人类一样与智能手机进行交互,完成各种指定命令。 比如让它在50-100美元的预算内购买一个打奶泡的工具。 它就能像下面这样一步一步地完成选择购物程序(亚马逊)并打开、点击搜索栏输入“奶泡器”、找到筛选功能选择预算区间、点击商品并完成...
无需任何训练,GPT-4V就能直接像人类一样与智能手机进行交互,完成各种指定命令。 比如让它在50-100美元的预算内购买一个打奶泡的工具。 它就能像下面这样一步一步地完成选择购物程序(亚马逊)并打开、点击搜索栏输入“奶泡器”、找到筛选功能选择预算区间、点击商品并完成下单这一系列共计9个操作。
无需任何训练,GPT-4V就能直接像人类一样与智能手机进行交互,完成各种指定命令。 比如让它在50-100美元的预算内购买一个打奶泡的工具。 它就能像下面这样一步一步地完成选择购物程序(亚马逊)并打开、点击搜索栏输入“奶泡器”、找到筛选功能选择预算区间、点击商品并完成下单这一系列共计9个操作。
但是OpenAI总裁Greg Brockman自己却在X(推特)上,不断转发利用新版的GPT-4来实现的各种天马行空的功能。利用GPT-4V的多模态能力和代码能力,直接把一个写在书上的数学公式转化成一段Python代码。而利用GPT-4刚更新不久的语音功能,有人开始把它当成商务谈判的教练来进行模拟练习了。就在这个帖子下面,这位帝国理工...
无需任何训练,GPT-4V就能直接像人类一样与智能手机进行交互,完成各种指定命令。 比如让它在50-100美元的预算内购买一个打奶泡的工具。 它就能像下面这样一步一步地完成选择购物程序(亚马逊)并打开、点击搜索栏输入“奶泡器”、找到筛选功能选择预算区间、点击商品并完成下单这一系列共计9个操作。
Figure 1:从一个显示从传统自动驾驶管道到将视觉语言模型(如 GPT-4V)进行整合的插图。这张图片由 DALL-E 3. 生成。 作者已经逐步测试了 GPT-4V 的能力,从场景理解到推理,并最终测试了它在真实驾驶场景中的连续判断和决策能力。作者在大自动驾驶领域对 GPT-4V 的探索主要集中在以下几个方面: ...