1月13日,新京报AI研究院发布第二期中国AI大模型测评报告——《大语言模型产品传媒方向能力测评调研报告》(下称《报告》),这也是继2024年7月发布首份大模型赋能传媒能力报告半年后,新京报贝壳财经第二次对国内主流11款大语言模型在信息搜集能力、新闻写作能力、事实核查与价值观判断能力、翻译能力以及长文本能力五项...
作为独立的第三方中文大模型基准测评机构,SuperCLUE本次8月报告聚焦通用能力测评,测评方案由理科、文科和Hard三大维度构成。具体来看,理科能力包括计算、逻辑推理和代码能力;文科任务覆盖知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大维度;Hard任务则侧重精确指令遵循以及复杂任务高阶推理。作为...
激发中国经济新动力,相约2024年的夏天。7月3日下午,新京报贝壳财经夏季年会“‘通往未来 向新有AI”主题论坛在北京正大中心举行。会上,新京报贝壳财经发布行业首份《中国AI大模型测评报告——公众及传媒行业大模型使用与满足研究》(下称:报告)。本次报告经北京大学、清华大学、浙江大学、中国传媒大学等高校教授的...
AI大模型测评2024年上半年报告,大模型阶段性进展评估报告核心结论摘要 国内外大模型差距进一步缩小:国内外大模型差距进一步缩小:OpenAI最新模型GPT-4o依然是全球表现最好的模型,但国内大模型已将差距缩小至5%以内。国内开源模型崛起:本次登顶SuperCLUE的国内大模型为开源模型Qwen2-72B-Instruct,并且超过了众多国内外...
自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年也有了实质性的突破。中文大模型测评基准SuperCLUE在过去一年对国内外大模型的发展趋势和综合效果进行了实时跟踪。 基于此,我们发布了《中文大模型基准测评2023年度报告》,在AI大模型发展的巨大浪潮中,通过多维度综合...
本报告共分为四个部分,采用问卷调查、模型评测、深度访谈等研究方法。 第一章为特别呈现环节,报告节选了合作伙伴北京智源人工智能研究院于2024年6月最新发布的针对140余款开源和商业闭源的大模型能力评测,从主观和客观层面对闭源大模型进行了测评和排名,同时还增补了开源大模型的测评排名,试图给予大模型行业全景式呈现,...
第一章为特别呈现环节,报告节选了合作伙伴北京智源人工智能研究院于2024年6月最新发布的针对140余款开源和商业闭源的大模型能力评测,从主观和客观层面对闭源大模型进行了测评和排名,同时还增补了开源大模型的测评排名,试图给予大模型行业全景式呈现,向读者展示大模型宏观图谱。 第二章为针对大模型传媒方向能力的测试,包...