11月16日,根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单。在国内大模型赛道火热的当下,夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆...
11月16日,根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单,多项性能优于GPT-4。在国内大模型赛道火热的当下,夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的...
最新数据显示,vivo自研AI大模型同时位列C-Eval、CMMLU双榜的全球中文榜单榜首,综合能力十分强劲,特别是在人文、社科等领域的表现远超同级别大模型。据vivo相关负责人透露,vivo自研AI大模型将会在即将发布的OriginOS 4系统中被首次应用,为消费者带来更加智能、便捷、安全的手机使用体验。此次,vivo自研AI大模型同时...
三、Eval结果 MMLU:Massive Multitask Language Understanding CMMLU:Chinese Massive Multitask Language Understanding MMLU vs CMMLU 共同点:都是for NLU的,评测大模型在“多个任务”上的表现 具体地: MMLU: 名称: Massive Multitask Language Understanding。 语言: 主要评估模型在英语任务上的表现。 任务数量: 包...
作业帮发布银河大模型,C-Eval、CMMLU双榜排名第一 9月2日至6日,2023中国国际服务贸易交易会在北京举办,作业帮受邀参展,并正式发布自研银河大模型。在服贸会现场,银河大模型在智能解题、知识问答、中英文写作及AI伴学等方面的出色表现吸引了大量现场观众的互动体验。同时作业帮公布了银河大模型在C-Eval、CMMLU两...
11月16日,根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单。 作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆盖52个学科,是目前权威的中文AI大模型评测榜单之一。CMMLU是由MBZUAI、上海交通大学、微软亚洲研究院共同推出,...
10月16日,C-Eval大模型评测榜单更新,榜单显示,vivo自研大模型在C-Eval全球中文榜单中排名第一。此前,vivo自研大模型已取得了C-Eval百亿内大模型榜单第一,CMMLU全球中文榜单第一以及其百亿内大模型榜单第一的好成绩。vivo相关负责人透露,vivo自研AI大模型将会在即将发布的OriginOS 4系统中被首次应用,其中包括十亿...
作业帮发布银河大模型,C-Eval、CMMLU双榜排名第一 9月2日至6日,2023中国国际服务贸易交易会在北京举办,作业帮受邀参展,并正式发布自研银河大模型。在服贸会现场,银河大模型在智能解题、知识问答、中英文写作及AI伴学等方面的出色表现吸引了大量现场观众的互动体验。同时作业帮公布了银河大模型在C-Eval、CMMLU两...
同时作业帮公布了银河大模型在C-Eval、CMMLU两大权威大语言模型评测基准的成绩。数据显示,作业帮银河大模型表现卓越,以平均分73.7分位居C-Eval榜首;同时在CMMLU榜单Five-shot和Zero-shot测评中分别以平均分74.03分及73.85分位列第一,成为首个同时在上述两大权威榜单平均分排名第一的教育大模型。
登顶C-Eval、CMMLU双榜单第一【附人工智能产业分析】 图源:摄图网 10月16日,vivo将发布自研AI大模型矩阵,其中包括十亿、百亿、千亿三个不同参数量级的5款自研大模型,全面覆盖核心应用场景。 据vivo相关负责人透露,vivo自研AI大模型将会在即将发布的OriginOS 4系统中被首次应用,为消费者带来更加智能、便捷、安全的...