在实机演示环节的第一个demo里,GPT-4o能够准确识别使用者Chen呼吸的声音,并指导Chen怎么通过深吸慢呼平复心情。在第二个demo里,GPT在讲故事的过程中遭到Chen的反复打断,Chen想要它讲的刺激点,最终,GPT将故事唱出来了!此外,GPT还能实时读图、当同声传译。也就是说,GPT-4o不仅可以根据环境音做出即时反馈,...
前面的演示中,我们主要看到的是,与Moshi互动关于实时事实性信息、对话等能力。第三个demo中,主要去展示Moshi表达和理解情绪的能力。因此,同事Nell尝试用不同风格的语气和Moshi去说话。这时,他要求Moshi用法语口音,去朗诵一首关于巴黎的诗。巴黎,这座爱情之城,此处时间静止,心灵翱翔。坐落在欧洲的中心,正值发展...
GPT不再需要一轮一轮地进行对话,它可以同时听人喘气和进行呼吸指导,输入和输出在同时发生。第二个demo里,Chen让GPT给Zoph讲个睡前故事哄他入睡,Chen反复打断GPT的讲述,问它能不能讲得更刺激点,最后,GPT跟迪士尼公主似的把故事用歌唱了出来。有时候GPT给人感觉话太多了,在新版本里,你要是不想听可以立刻打...
OpenAI的愿景;ChatGPT桌面版及web版本的UI升级;GPT-4o模型;GPT-4o免费开放;GPT-4o的现场实测demo;可以看出,本次发布会总结来说,重头戏就是最新版的旗舰型号模型,GPT-4o。一. 更自然的语音交互体验 先来看看GPT-4o的官方介绍。GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文...
第二个demo里,Chen让GPT给Zoph讲个睡前故事哄他入睡,Chen反复打断GPT的讲述,问它能不能讲得更刺激点,最后,GPT跟迪士尼公主似的把故事用歌唱了出来。有时候GPT给人感觉话太多了,在新版本里,你要是不想听可以立刻打断或者提出意见,就像在真实生活里的交流一样。后面的几个demo里,GPT教Zoph做了数学题(“你...
1、怎么看OpenAI发布的GPT-4o?徐鹏:今天OpenAI展示的这款demo产品并不出人意料。从OpenAI的角度来看,他们一直希望将语音能力和语言理解能力进行深度融合。几年前,他们推出了的Whisper语音识别模型,这可以看作是他们在这方面的早期研究。他们将各种模态的数据,包括语音、图像、视频和文字,都整合在一个统一的表征...
在我看来,这个工作还是相当偏学术化的作品,文中有不少点都有值得商榷的地方:第一,语音的离散化仅仅用了 HuBERT[2],模型只能看到语音的语义特征,这对模型合成语音的音质和表现力有非常大的影响,demo 的语音也验证了我的判断;第二,指令微调数据集的构造上有问题。他们用的是 ASR 数据集,其实更好的选择应该是 ...
克雷西 发自 凹非寺 量子位 | 公众号 QbitAIGPT-4o桌面端最新Demo,与Sora的新作品一同亮相“欧洲AI春晚”VivaTech。 现场,OpenAI工作人员不仅展示了观众期待已久的“视频通话”,还试着让ChatGPT发表了演讲。 在…
而即将召开年度I/O大会的谷歌,不甘示弱,也开启了语音助手的demo实时演示。 已关注关注重播分享赞关闭观看更多更多退出全屏视频加载失败,请刷新页面再试刷新视频详情 谷歌DeepMin的CEO Demis Hassabis激动地表示,自己将首次在I/O大会上演讲...
GPT-4o到底有多强?只有用过才能知道。这两天,网友们不仅探索出了很多全新ChatGPT的炫酷用法,也逐渐开始意识到,这标志这OpenAI将逐渐替代谷歌曾经的地位,全面接管AGI时代。随着越来越多人开始试用GPT-4o,大家发现发布会上的demo真的只是冰山一角,官方后续发出的用例以及网友们的整活才是更精彩的部分。生成手写...