研究者猜想,这是因为 GPT-4 的六月更新中部署了更强大的安全层,而 GPT-3.5 的保守程度却下降了。第二个趋势是 GPT-4 的生成长度从 600 多下降到了 140 左右。图 3:回答敏感问题:(a) 整体性能变化。GPT-4 回答更少问题,而 GPT-3.5 回答稍微更多问题。(b) 一个示例查询和对应的响应情况。GPT-4...
Sharon Zhou 表示:「GPT-4 最近几周的性能下降很可能与训练和 OpenAI 推出的小型专家 GPT-4 模型有关。当用户测试它时,我们会问很多不同的问题。它不会回答得很好,但它会从我们那里收集数据,并且会改进和学习。」https://www.businessinsider.com/openai-gpt4-ai-model-got-lazier-dumber-chatgpt-2023-7 ...
而这次,斯坦福研究一出瞬间引爆舆论,让所有人大吃一惊的是,GPT-4竟然性能下降1/10。就连OpenAI站出来,表示对此关注,正积极调查大家分享的报告。那么,这项斯坦福论文究竟说了什么?安全了,但智商下线了 总的来说,GPT-4在3月和6月性能对比,主要在四个任务中有明显的下降。- 解决数学问题 - 回答敏感问题...
性能下降可能和消除有害内容有关 除了大佬从技术层面的解析外,网友也纷纷从各个角度进行揣测。有些网友觉得可能是OpenAI相对保守的道德政策降低了模型回复的质量。在OpenAI官方论坛中GPT相关的子版块,那些认为ChatGPT的性能遭到了「降级」的帖子中,许多人提到了ChatGPT在OpenAI采取新的内容限制之前对于Prompt的包容性有了...
这一情况令人震惊,因为GPT-4在其他领域表现出色,而在数学问题和代码生成方面的下降却意味着它的应用范围受到了限制。斯坦福大学和加州大学伯克利分校的研究团队认为,GPT-4的性能下降可能与OpenAI的架构变化有关。他们指出,虽然GPT-4在其他任务上的表现仍然很好,但对于数学问题和代码生成的处理能力明显不足。讨论和...
在Twitter 和 OpenAI 的在线开发者论坛的评论中,用户们表达了对 GPT-4 变笨性能下降的不满,例如 GPT-4 的逻辑能力减弱、错误回答增多、对提供的信息失去追踪能力…… 许多用户发现,GPT-4 回复“对不起,我无法回答”的次数越来越多。有网友甚至把 3 小时 25 条消息额度一口气用完,也没有解决问题,无奈切换到 GP...
为了评估GPT-4的表现,研究者们使用了一个新的代码生成数据集。结果发现,与3月相比,GPT-4在6月的可执行版本下降了至只有10%。这表明在代码生成方面,GPT-4的质量和可执行性出现了明显下降。代码生成评估 新的代码生成数据集为我们提供了对GPT-4性能的更加直观的评估。根据数据集,GPT-4在3月的可执行版本为...
这名当时网友称,“在过去几天里,我经历了GPT-4性能的明显下降。它的推理能力已经退化到GPT-3的水平,而且它正在努力完成上个月刚刚为我完成的任务。今晚的性能还是最糟糕的。这是怎么回事?”图片来源:Reddit 在OpenAI的官方开发者论坛,有网友在4月30日就发帖称,“一周前,我用GPT4为MS飞行模拟器创建了一...