(1)🎯准确的模型排名(与Chatbot Arena的相关性为0.96) (2)⚡️快速、廉价且可重复执行,仅需MMLU时间和成本的6% (3)🌊通过低成本和稳定的更新机制实现的动态基准化 (4)🏔️具有挑战性的问题集(MixEval排行榜上的顶级模型GPT-4o实现64.7%的准确率) (5)🌌全面且高度公正的查询分布,因为它深深扎根...
OpenAI研究员William Fedus确认,用户在LMSys arena在线网站上发现的“gpt2-chatbot”实际上是GPT-4o的伪装。这表明OpenAI在GPT-4o的开发上已经投入了大量的工作和创新。 Altman在个人博客上写道,OpenAI构建AI的思维方式已经发生了变化。他表示,OpenAI最初的设想是创建AI并用它为世界带来各种好处。但现在看起来,OpenAI...