forked from jeinlee1991/chinese-llm-benchmark Notifications Fork 0 Star 0 中文大模型能力评测榜单:目前已囊括128个大模型,覆盖chatgpt、gpt-4o、谷歌gemini、百度文心一言、阿里通义千问、百川、讯飞星火、商汤senseChat、minimax等商用模型, 以及qwen2.5、llama3.1、glm4、书生internLM2.5、openbuddy、AquilaCh...
chinese-llm-benchmark中文大模型能力评测榜单是一个全面评估开源大模型的平台,涵盖了百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b等知名模型。该榜单通过多维度评估这些模型的语言生成能力、情感表达、知识获取与推理、对话连贯性等方面的表现,并提供了详细的评分排行榜和原始输出结果。用户可以...
Breadcrumbs chinese-llm-benchmark / mrc.mdTop File metadata and controls Preview Code Blame 73 lines (71 loc) · 2.46 KB Raw 类别大模型阅读理解能力排名 商用 gpt4 99.3 1 商用 gpt-4o 98.0 2 商用 智谱GLM4 97.3 3 商用 百度ERNIE-3.5-8K 96.7 4 商用 豆包Doubao-pro-32k 96.7 5 开源...
chinese-llm-benchmark: 地址:github.com/jeinlee1991/ 简介:中文大模型能力评测榜单:覆盖百度文心一言、chatgpt、阿里通义千问、讯飞星火、belle / chatglm6b 等开源大模型,多维度能力评测。不仅提供能力评分排行榜,也提供所有模型的原始输出结果! Safety-Prompts: 地址:github.com/thu-coai/Saf 简介:由清华大学提...
简介:由清华大学提出的一个关于LLM安全评测benchmark,包括安全评测平台等,用于评测和提升大模型的安全性,囊括了多种典型的安全场景和指令攻击的prompt。 PromptCBLUE: 中文医疗场景的LLM评测基准 地址:https://github.com/michael-wzhu/PromptCBLUE 简介:为推动LLM在医疗领域的发展和落地,由华东师范大学联合阿里巴巴天...
数据集说明:统一了丰富的IFT数据(如CoT数据,目前仍不断扩充)、多种训练效率方法(如lora,p-tuning)以及多种LLMs,三个层面上的接口,打造方便研究人员上手的LLM-IFT研究平台。 地址:https://github.com/CLUEbenchmark/pCLUE 数据集说明:基于提示的大规模预训练数据集,用于多任务学习和零样本学习。包括120万训练数据...
CFBench: A Comprehensive Constraints-Following Benchmark for LLMs Tao Zhang, Yan-Bin Shen, Wenjing Luo, Yan Zhang, Hao Liang, Fan Yang, Mingan Lin, Yujin Qiao, Weipeng Chen, Bin Cui, Wentao Zhang, Zenan Zhou 2024 ChatGLM-Math: Improving Math Problem-Solving in Large Language Models with...
CT-LLM 与其他模型在不同 benchmark 上的比较,可以发现在MMLU和CMMLU等多学科数据集上的性能差距明显较小。虽然与其他模型相比表现出显着差异,特别是在语言理解和推理基准方面,但我们的模型保持了一致的性能,表明不同领域的能力是平衡的。 我们还比较了使用2:1的中英文数据(SFT)比例进行微调的模型与其他模型在通...
玄野 大模型(LLM)最新论文摘要 | PsyBench: a balanced and in-depth Psychological Chinese Evaluation Benchmark for Foundation Models Authors: Junlei Zhang, Hongliang He, Nirui Song, Shuyuan He, \\Shuai Zhang, Huachuan Qiu, Anqi Li, Lizhi Ma, Zhenzhong Lan ...
Large language models (LLMs) have demonstrated great potential in the financial domain. Thus, it becomes important to assess the performance of LLMs in the financial tasks. In this work, we introduce CFBenchmark, to evaluate the performance of LLMs for Chinese financial assistant. The basic ve...