给了minigpt4一张图片,让它描述一下这张图片,minigpt4识别出这是一张监控摄像头照片,在街道上,有汽车和公交车,有人穿着黑色衣服拿着包穿过马路。让minigpt4分析一下这个人的行为。minigpt4认为这个人正在穿过一条繁忙的街道并可能存在危险。 给了minigpt4一张搞笑合成图片,让它说出图中的人物是谁。minigpt4...
给了minigpt4一张图片,让它描述一下这张图片,minigpt4识别出这是一张监控摄像头照片,在街道上,有汽车和公交车,有人穿着黑色衣服拿着包穿过马路。让minigpt4分析一下这个人的行为。minigpt4认为这个人正在穿过一条繁忙的街道并可能存在危险。 给了minigpt4一张搞笑合成图片,让它说出图中的人物是谁。minigpt4...
相较之下,微软在这方面可说再次领先一步,现在的 Bing Chat 已经支持分析图像,与 AI 机器人进行对话不再局限于文字内容。用户可以上传图片或输入网络图片链接,并向 AI 机器人询问图像内容或相关信息。 功能介绍: Bing Chat 的 Visual Search (视觉搜索)功能是一种强大的工具,基于 OpenAI 的 GPT-4 模型,让用户可...
即使后来用code interpreter插件(现改名为Advanced Data Analysis,允许上传图片、PDF、excel数据表格等,主要进行数据分析和可视化)可以上传图片,但是依然无法精准识别图片中的文字、图形、颜色以及这些之间的逻辑关系,更不能基于这些逻辑关系给出一张文献图片的解读。 近期,...
这是一道物理题,GPT-4 被要求根据图文逐步解题,这是 GPT-3.5(此处指升级之前的 ChatGPT 所依赖的模型)所不具备的能力。一方面,GPT-3.5 只被训练用来理解文字,题中的图它是看不懂的。另一方面,GPT-3.5 的解题能力也很薄弱,鸡兔同笼都能把它难倒。但这一次,两个问题似乎都被解决得非常漂亮。
GPT-4拿到之后,会先分析一波图片的内容,然后给出答案。 比如,逐图分析下面这个。 GPT-4立马反应过来:图里的这个「Lighting充电线」,看起来就是个又大又过气的VGA接口,插在这个又小又现代的智能手机上,反差强烈。 再给出这么一个梗图,问问GPT-4梗在哪里?
GPT-4在其先进的推理能力方面超过了ChatGPT。如下: 梗图识别 比如,给它看一张奇怪的梗图,然后问图中搞笑在哪里。 GPT-4拿到之后,会先分析一波图片的内容,然后给出答案。 比如,逐图分析下面这个。 GPT-4立马反应过来:图里的这个「Lighting充电线」,看起来就是个又大又过气的VGA接口,插在这个又小又现代的智能...
GPT-4是一个多模态模型,可以接受图像输入,然后理解图像内容,生成相应的说明和分析。 比如输入一张奇怪的充电图片。用户问这张图有什么好笑的? GPT-4可以告诉你图中具体的什么包装,具体充电头的型号,用于什么显示器等等等等,还分析出这图里面有特写镜头。
GPT-4一针见血地点出,这副漫画讽刺了统计学习和神经网络在提高模型性能方法上的差异。 但在另一组图中,Bing似乎并没有get到点。 Bing还装模做样的分析了分析,它说也许是接头和包装的反差?也可能是插头的底下看着像一张脸。 甚至还没话找话的分析了三幅图片分别是什么,就是没提梗在哪里。