上海人工智能实验室大模型开放评测平台司南正式发布“以人为本”(Human-Centric Eval)的大模型评测体系,系统评估大模型能力对人类社会的实际价值,为人工智能应用更贴近人类需求提供可量化的人本评估标注。(澎湃新闻)
全球开发者盯着排行榜刷分时,上海人工智能实验室突然撕开行业底裤——最新实验证明,那些号称智商180的AI模型,可能在真实人类面前连基础题都解不利索。当某大厂工程师还在炫耀模型考试分数时,司南团队已经用真实研究生做"人肉测试仪",发现三个顶尖模型在学术场景集体翻车。传统评测就像让AI做五年高考三年模拟,但现实...
新民晚报讯(记者 郜阳)大模型技术哪家强?30日,上海人工智能实验室科学家团队正式发布大模型开源开放评测体系“司南”(OpenCompass2.0),可以为大语言模型、多模态模型等提供一站式评测服务。据介绍,“司南”全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现,评测榜单涉及的大语言模型和多模态大...
【上海人工智能实验室葛佳烨:大模型评测亟需可靠的数据污染检测技术】《科创板日报》14日讯,在“知乎AI先行者沙龙”上,上海人工智能实验室司南大模型评测产品负责人葛佳烨表示,大语言模型评测中面临全面性、评测成本、数据污染、鲁棒性等挑战。她表示,评测数十万道题需要大量算力资源,基于人工打分的主观评测成本高昂...
昨天,上海人工智能实验室发布了2023年度大模型评测榜单。经过大模型开源开放评测体系“司南”(OpenCompass2.0)对国内外主流大模型的全面评测诊断,中英双语评测前十名揭晓:OpenAI研发的GPT-4 Turbo位居第一,排名第二至第五的依次是... 网页链接
2025年1月,人工智能伦理论坛在哈尔滨顺利举办。中国软件评测中心(工业和信息化部软件与集成电路促进中心)与上海人工智能实验室联合发布了《医疗健康领域大模型发展分析报告(2024)》(以下简称《报告》)。《报告》对我国85家企业和机构发布的医疗健康大模型,从发展现状、场景落地及医疗健康大模型应用能力开展测评。从...
【7大模型高考评测成绩出炉!第一名是它】 据上海人工智能实验室最新发布的数据显示,其旗下的司南评测体系OpenCompass近日对7个大模型进行了“语数外”全卷能力测试。这是OpenCompass首次发布大模型的高考评测结果。 据了解,此次测试的满分为420分。测试结果显示,阿里通义千问2-72B以303分的成绩名列榜首,紧随其后...
OpenCompass2.0完成,该体系已成为全球领先的大模型评测标准。评测结果显示,OpenAI的GPT-4 Turbo排名第一,随后依次是中国企业智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0以及阿里巴巴Qwen-72B-Chat。 “…
在10月21日举行的第四届1024资管科技开发者大会(ITDC 2023)资产管理垂直领域大模型开发与应用论坛上,上海人工智能实验室书生大模型生态和产业合作负责人许韶华分享了大语言模型技术总览,即数据准备、预训练、指令微调、部署&推理、模型评测。 许韶华表示,大规模构建高质量语料数据是大模型研发中非常具有挑战的环节,其中...
上海人工智能实验室旗下司南评测体系OpenCompass发布首个大模型高考全卷评测结果。语数外三科加起来的满分为420分,此次高考测试结果显示, 阿里 通义千问2-72B排名第一,为303分,OpenAI的GPT-4o排名第二,得分296分,上海人工智能实验室的书生·浦语2.0排名第三,三个大模