11月16日,根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单,多项性能优于GPT-4。在国内大模型赛道火热的当下,夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的...
11月16日,根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单。在国内大模型赛道火热的当下,夸克自研大模型凭借过硬的研发能力及数据、行业、平台等优势成为新晋“学霸”。作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆...
近期,互联网公司及手机厂商接连发布自研大模型,权威榜单显示,国产大模型的各项性能再攀高峰。11月16日,记者在C-Eval和CMMLU两大权威评测榜单中发现,夸克大模型成为双榜第一,进一步展现国产大模型在数据精调及模型框架上的能力提升。作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和...
11月16日,根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单。 作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆盖52个学科,是目前权威的中文AI大模型评测榜单之一。CMMLU是由MBZUAI、上海交通大学、微软亚洲研究院共同推出,...
11月16日,根据最新成绩,千亿级参数的夸克大模型登顶C-Eval和CMMLU两大权威评测榜单。 作为国内最权威的两个大语言模型测试榜单,C-Eval是由清华大学、上海交通大学和爱丁堡大学合作构建的综合性考试评测集,覆盖52个学科,是目前权威的中文AI大模型评测榜单之一。CMMLU是由MBZUAI、上海交通大学、微软亚洲研究院共同推出,...
Skywork/eval/文件夹下的evaluate_ceval.py, evaluate_cmmlu.py和evaluate_mmlu.py文件中,获取选项ABCD的概率的关键代码如下: softval = torch.nn.functional.softmax( torch.tensor( [ logits[tokenizer("A")["input_ids"][-1]], logits[tokenizer("B")["input_ids"][-1]], logits[tokenizer("C")[...
🎉According to the results from C-Eval and CMMLU, the performance of Llama3-70B-Chinese-Chat in Chinese significantly exceeds that of ChatGPT and is comparable to GPT-4! Developed by:Shenzhi Wang(王慎执) andYaowei Zheng(郑耀威)
百川智能——baichuan-7B Baichuan-7B是由百川智能开发的一个开源可商用的大规模预训练语言模型。基于 Transformer 结构,在大约 1.2 万亿 tokens 上训练的 70 亿参数模型,支持中英双语,上下文窗口长度为 4096。在标准的中文和英文 benchmark(C-Eval/MMLU)上均取得同尺
作业帮发布教育领域银河大模型 | 作业帮发布了自主研发的银河大模型。该模型融合了作业帮多年的AI算法和教育数据积累,是一款覆盖多学科、多学段、多场景的教育大模型,具备多学科知识解答、创意写作、自主提问、陪伴式辅导等功能。在测评基准上,该模型以平均分73.7分居C-Eval榜首,同时在CMMLU榜单Five-shot和Zero-shot...
DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。性能对齐海外领军闭源模型百科知识:DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前...