事实上,在不到 30 分钟的发布会中,最为人津津乐道的不是 GPT-4o 这个模型自身,而是在 GPT-4o 的支撑下,ChatGPT 的交互体验。不仅是人机语音对话体验更接近人与人之间的实时对话,视觉识别能力的进步也让 AI 更能基于现实世界进行语音交互。简而言之就是更自然的人机交互。这很容易让人想起《她(Her)》...
在第三个场景里,巴雷特希望GPT辅导自己做数学题,但不能直接说答案,而是要一步一步给出解题思路。这个任务对GPT-4o就是小菜一碟,于是巴雷特加大了任务难度,把一串源代码展现给GPT-4o看,然后要求GPT-4o用一句话描述这段代码的含义。没有一秒钟迟疑,GPT-4o就给出了巴雷特想要的答案。最后一个场景是,米拉...
在图像识别和生成上,GPT-4o可以说是喜忧参半。我们在选取网络平台上一张同时包含多种人物表情的照片时,GPT-4o能准确描述出6个小照片下人物的内心活动。图源:GPT-4o官网对话页面 但当我们让GPT-4o识别国内流行的AI黏土特效相关照片时,却被GPT-4o识别为手工雕塑作品。换言之,大模型若想始终竞争优越性,也...
根据OpenAI的说法,GPT-4o可以“在短短232毫秒内响应用户的音频提示,平均为320毫秒,与人类在对话中的反应时间相似。”是不是被彻底惊艳到了,和谷歌去年12月演示的Gemini似乎有异曲同工之妙,只是谷歌那次演示被认为夸大和误导的成分居多,是剪辑制造出来的,那么Gpt-4o这个,是不是也有夸张和误导的成分呢?我...
当地时间5月13日,OpenAI通过直播展示了产品更新。与此前传出的市场消息不同,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是发布了GPT-4系列新模型GPT-4o以及AI聊天机器人ChatGPT的桌面版本,聚焦多模态和端侧应用。此前OpenAI公司CEO奥尔特曼(Sam Altman)就已经否认了公司将会发布GPT-5,他表示新版...
在第一次现场演示中,主持人要求GPT-4o对他的呼吸技巧做出反馈。他对着手机深深地吸了一口气,而ChatGPT则诙谐地回应道:“你不是吸尘器。”它建议使用一种速度较慢的技术,展示其理解和回应人类细微差别的能力。除了具有幽默感,ChatGPT也会改变回应的语气,在传达“思想”的同时用不同的语调来完成。就像人类对话一...
GPT-4o 是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快还带有感情,也很通人性。在现场,OpenAI 的工程师拿出一个 iPhone 演示了新模型的几种主要能力。最重要的是实时语音对话,Mark Chen 说:「我第一次来直播的发布会,有点紧张。」ChatGPT 说,要不你深呼吸一下。...
这还是一份给所有人的大礼,GPT4-o与ChatGPT Plus会员版所有的能力,包括视觉、联网、记忆、执行代码、GPT Store……将对所有用户免费开放!(新语音模式几周内先对Plus用户开放)在直播现场,CTO Murati穆姐说:这是把GPT-4级别的模型开放出去,其实她还谦虚了。在场外,研究员William Fedus揭秘,GPT-4o就是...
推出桌面版ChatGPT & 网页端UI更新,以及最重要的,发布GPT-4o。其中的“o”代表“omni”,意为全能的。根据OpenAI官网给出的介绍,GPT-4o可以处理文本、音频和图像任意组合作的输入,并生成对应的任意组合输出。特别是音频,它可以在短至232毫秒的时间内响应用户的语音输入,平均320毫秒的用时已经接近人类在日常...