chinese-llm-benchmark中文大模型能力评测榜单是一个全面评估开源大模型的平台,涵盖了百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b等知名模型。该榜单通过多维度评估这些模型的语言生成能力、情感表达、知识获取与推理、对话连贯性等方面的表现,并提供了详细的评分排行榜和原始输出结果。用户可以...
This branch is 30 commits behind jeinlee1991/chinese-llm-benchmark:main.Folders and files Latest commit jeinlee1991 . a778ccc· Oct 24, 2024 History89 Commits eval Update 评测数据.xlsx Dec 12, 2023 pic . Oct 24, 2024 .gitignore pic Jun 4, 2023 IFEval.md v2.3榜单 Oct 20, 2024 LLM...
Breadcrumbs chinese-llm-benchmark / LLM-info.mdTop File metadata and controls Preview Code Blame 112 lines (108 loc) · 17 KB Raw 中文大模型汇总 📝大模型基本信息价格单位:元/1m tokens,即元每百万token 类别大模型价格/下载机构 商用 qwen-long 输入:0.5,输出: 2 阿里 商用 qwen-turbo 输入:2...
近年来随着预训练语言模型(PTLM)及大模型技术(LLM)的发展,在诸多下游任务上均取得SOTA的结果,一个大趋势是多任务评测基准(benchmark)的出现,如:GLUE(General Language Understanding Evaluation)[1,2],CLUE(Chinese Language Understanding Evaluation)[3]。这些benchmark的目标是评估语言模型的泛化性能,同时也提供了公...
https://github.com/TongjiFinLab/CFBenchmarkgithub.com/TongjiFinLab/CFBenchmark 该篇论文是同济大学等针对于中文金融领域提出CFBenchmark。 主要针对的中文金融领域中的以下问题: 领域特定性:金融领域问题通常涉及多个社会部门,要求决策者基于大量文本和数值数据进行阅读、计算、分析和决策。这要求评估系统能够准确...
code地址:https://github.com/CLUEbenchmark/SuperCLUE 排行榜:www.CLUEbenchmarks.com/superclue.html SuperCLUE是什么 中文通用大模型基准SuperCLUE是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是:在当前通用大模型大力发展的背景下,中文大模型的效果情况,包括但不限于"这些模型不同任务的效果情况...
2. Benchmark Results We utilize C-Eval [2] and CMMLU [3] to assess the performance of LLMs in Chinese. The results of ChatGPT and GPT-4 are borrowed from theC-Eval leaderboardandCMMLU leaderboardaccessed on May 10, 2024. ModelC-Eval Avg (Test Set)C-Eval Hard Avg (Test Set)CMMLU...
2. Benchmark Results We utilize C-Eval [2] and CMMLU [3] to assess the performance of LLMs in Chinese. The results of ChatGPT and GPT-4 are borrowed from the C-Eval leaderboard and CMMLU leaderboard accessed on May 10, 2024. ModelC-Eval Avg (Test Set)C-Eval Hard Avg (Test Set...
Breadcrumbs chinese-llm-benchmark / IFEval.mdTop File metadata and controls Preview Code Blame 73 lines (71 loc) · 2.46 KB Raw 类别大模型中文指令遵从排名 开源 Qwen2-72B-Instruct 86.0 1 商用 豆包Doubao-pro-32k 85.0 2 商用 gpt4 84.0 3 商用 智谱GLM-4-Air 83.0 4 商用 智谱GL...
近年来随着预训练语言模型(PTLM)及大模型技术(LLM)的发展,在诸多下游任务上均取得SOTA的结果,一个大趋势是多任务评测基准(benchmark)的出现,如:GLUE(General Language Understanding Evaluation)[1,2],CLUE(Chinese Language Understanding Evaluation)[3]。这些benchmark的目标是评估语言模型的泛化性能,同时也提供了公...