2个基于LLaMA2的开源中文模型:BELLE-Llama2-13B-chat-0.4M、Linly-Chinese-LLaMA2-13B [2023/7/26] 发布v1.5版本评测榜单,link 新增7个大模型:gpt4、文心一言v2.2、vicuna-33b、wizardlm-13b、Ziya-LLaMA-13B-v1.1、InternLM-Chat-7B、Llama-2-70b-chat [2023/7/18] 发布v1.4版本评测榜单,link 新增...
chinese-llm-benchmark中文大模型能力评测榜单是一个全面评估开源大模型的平台,涵盖了百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b等知名模型。该榜单通过多维度评估这些模型的语言生成能力、情感表达、知识获取与推理、对话连贯性等方面的表现,并提供了详细的评分排行榜和原始输出结果。用户可以...
228c7f2 Breadcrumbs chinese-llm-benchmark / LLM-info.md Latest commit HistoryHistory File metadata and controls Preview Code Blame 112 lines (108 loc) · 17 KB Raw 中文大模型汇总 📝大模型基本信息价格单位:元/1m tokens,即元每百万token 类别大模型价格/下载机构 商用 qwen-long 输...
https://www.cluebenchmarks.com/superclue.html #
LLM-info.md README.md Breadcrumbs chinese-llm-benchmark /leaderboard / alldata.md Latest commit jeinlee1991 . 34815b9· Jan 10, 2025 HistoryHistory Breadcrumbs chinese-llm-benchmark /leaderboard / alldata.mdTop File metadata and controls Preview Code Blame 62 lines (60 loc) · 12.1 KB Raw...
Breadcrumbs chinese-llm-benchmark / LLM-history.mdTop File metadata and controls Preview Code Blame 71 lines (71 loc) · 12.4 KB Raw DateTypeModel模型尺寸自研基础模型机构机构类型区域 2023/2 LLM llama1 7B, 13B, 65B 是 Meta 科技大厂 国外 2023/3 LLM alpaca(llama1) 7B, 13B, 65B 否 斯坦...
Breadcrumbs chinese-llm-benchmark / total.mdTop File metadata and controls Preview Code Blame 73 lines (71 loc) · 2.44 KB Raw 类别大模型总分排名 商用 gpt-4o 94.3 1 商用 gpt4 92.5 2 商用 gpt-4-turbo 91.8 3 商用 gpt-4o-mini 91.4 4 商用 百度文心4.0 90.8 5 商用 百度ERNIE-3.5-8K...
Breadcrumbs chinese-llm-benchmark / math.mdTop File metadata and controls Preview Code Blame 75 lines (73 loc) · 7.68 KB Raw 评测集说明: eval_2int:2个整数的加减,举例“918 + 474 =” eval_3int:3个整数的加减,举例“166 + 215 + 53 =” eval_4int:4个整数的加减,举例“945 + 820 +...
Breadcrumbs chinese-llm-benchmark / IFEval.mdTop File metadata and controls Preview Code Blame 81 lines (79 loc) · 2.77 KB Raw 类别大模型中文指令遵从排名 开源 Qwen2-72B-Instruct 86.0 1 商用 豆包Doubao-pro-32k 85.0 2 商用 智谱GLM-4-Air 83.0 3 商用 智谱GLM-4-AirX 83.0 4 商用 gpt-...
chinese-llm-benchmark / table-qa.md Latest commit jeinlee1991 v2.3榜单 Oct 20, 2024 d313314·Oct 20, 2024 History History 类别大模型数据分析能力排名 商用百度ERNIE-3.5-8K100.01 商用yi-lightning(new)100.02 商用gpt-4o100.03 商用gpt-4o-mini100.04 ...