forked from jeinlee1991/chinese-llm-benchmark Notifications Fork 0 Star 0 中文大模型能力评测榜单:目前已囊括128个大模型,覆盖chatgpt、gpt-4o、谷歌gemini、百度文心一言、阿里通义千问、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及qwen2.5、llama3.1、glm4、书生internLM2.5、openbuddy、AquilaCh...
chinese-llm-benchmark中文大模型能力评测榜单是一个全面评估开源大模型的平台,涵盖了百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b等知名模型。该榜单通过多维度评估这些模型的语言生成能力、情感表达、知识获取与推理、对话连贯性等方面的表现,并提供了详细的评分排行榜和原始输出结果。用户可以...
LLM-info.md README.md classification.md info-extract.md math.md mrc.md table-qa.md total.md Breadcrumbs chinese-llm-benchmark / IFEval.md Latest commit jeinlee1991 v2.1 e7cbdd4· Aug 27, 2024 HistoryHistory Breadcrumbs chinese-llm-benchmark / IFEval.mdTop File metadata and ...
玄野 大模型(LLM)最新论文摘要 | PsyBench: a balanced and in-depth Psychological Chinese Evaluation Benchmark for Foundation Models Authors: Junlei Zhang, Hongliang He, Nirui Song, Shuyuan He, \\Shuai Zhang, Huachuan Qiu, Anqi Li, Lizhi Ma, Zhenzhong Lan ...
code地址:https://github.com/CLUEbenchmark/SuperCLUE 排行榜:www.CLUEbenchmarks.com/superclue.html SuperCLUE是什么 中文通用大模型基准SuperCLUE是针对中文可用的通用大模型的一个测评基准。它主要回答的问题是:在当前通用大模型大力发展的背景下,中文大模型的效果情况,包括但不限于"这些模型不同任务的效果情况...
Breadcrumbs chinese-llm-benchmark / math.mdTop File metadata and controls Preview Code Blame 75 lines (73 loc) · 7.68 KB Raw 评测集说明: eval_2int:2个整数的加减,举例“918 + 474 =” eval_3int:3个整数的加减,举例“166 + 215 + 53 =” eval_4int:4个整数的加减,举例“945 + 820 +...
Breadcrumbs chinese-llm-benchmark / IFEval.mdTop File metadata and controls Preview Code Blame 81 lines (79 loc) · 2.77 KB Raw 类别大模型中文指令遵从排名 开源 Qwen2-72B-Instruct 86.0 1 商用 豆包Doubao-pro-32k 85.0 2 商用 智谱GLM-4-Air 83.0 3 商用 智谱GLM-4-AirX 83.0 4 商用 gpt-...
Breadcrumbs chinese-llm-benchmark / LLM-history.mdTop File metadata and controls Preview Code Blame 71 lines (71 loc) · 12.4 KB Raw DateTypeModel模型尺寸自研基础模型机构机构类型区域 2023/2 LLM llama1 7B, 13B, 65B 是 Meta 科技大厂 国外 2023/3 LLM alpaca(llama1) 7B, 13B, 65B 否 斯坦...
chinese-llm-benchmark / table-qa.md Latest commit jeinlee1991 v2.3榜单 Oct 20, 2024 d313314·Oct 20, 2024 History History 类别大模型数据分析能力排名 商用百度ERNIE-3.5-8K100.01 商用yi-lightning(new)100.02 商用gpt-4o100.03 商用gpt-4o-mini100.04 ...
Breadcrumbs chinese-llm-benchmark / LLM-info.mdTop File metadata and controls Preview Code Blame 112 lines (108 loc) · 17 KB Raw 中文大模型汇总 📝大模型基本信息价格单位:元/1m tokens,即元每百万token 类别大模型价格/下载机构 商用 qwen-long 输入:0.5,输出: 2 阿里 商用 qwen-turbo 输入:2...