我们选取了部分中英文典型数据集进行了评测,以下为 ChatGLM2-6B 模型在 MMLU (英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。 推理性能 ChatGLM2-6B 使用了 Multi-Query Attention,提高了生成速度。生成 2000 个字符的平均速度对比如下 Multi-QueryAttention 同时也降低了生成过程中 KV Cache 的...
性能升级ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性:更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 ...
相比于初代模型,ChatGLM2-6B在多个维度的能力上,都取得了巨大的提升。 数理逻辑 知识推理 长文档理解 评测结果 研究团队选取了部分中英文典型数据集进行了评测,以下为ChatGLM2-6B模型在MMLU(英文)、C-Eval(中文)、GSM8K(数学)、...
我们选取了部分中英文典型数据集进行了评测,以下为 ChatGLM2-6B 模型在 MMLU (英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。推理性能 ChatGLM2-6B 使用了 Multi-Query Attention,提高了生成速度。生成 2000 个字符的平均速度对比如下 Multi-Query Attention 同时也降低了生成过程中 KV Ca...
相比于初代模型,ChatGLM2-6B在多个维度的能力上,都取得了巨大的提升。 数理逻辑 知识推理 长文档理解 评测结果 研究团队选取了部分中英文典型数据集进行了评测,以下为ChatGLM2-6B模型在MMLU(英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。
下图是目前最新的C-Eval测评结果榜单:首先,从测试结果上看,我认为ChatGLM2-6B超越GPT4是比较真实的,大家从榜单的具体成绩可以看出,ChatGLM2-6B主要赢在Social Science,Humanities 和 Others 这三项上。而这三项实际上和训练的语料关系是比较大的,其中的很多项目是和国家的国情相关的,而非世界通识。因此,虽然...
相比于初代模型,ChatGLM2-6B 在多个维度的能力上,都取得了巨大的提升。 数理逻辑 知识推理 长文档理解 评测结果 研究团队选取了部分中英文典型数据集进行了评测,以下为 ChatGLM2-6B 模型在 MMLU(英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。
我们选取了部分中英文典型数据集进行了评测,以下为 ChatGLM2-6B 模型在MMLU(英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。在evaluation中提供了在 C-Eval 上进行测评的脚本。 MMLU Chat 模型使用 zero-shot CoT (Chain-of-Thought) 的方法测试,Base 模型使用 few-shot answer-only 的方法测...
利用该评测数据集,官方分别对 GPT-3.5-Turbo-16k、Llama2-7B-chat-4k、LongChat-7B-16k、XGen-7B-8k、InternLM-7B-8k、ChatGLM2-6B、ChatGLM2-6B-32k* 等 7 个支持长文本的模型的性能。 在文章《为什么你在用 ChatGPT 的提示词 Prompt 似乎效果不如人意?》中,大模型在不同语言之间的推理能力不同,所以...