相比于初代模型,ChatGLM2-6B在多个维度的能力上,都取得了巨大的提升。 数理逻辑 知识推理 长文档理解 评测结果 研究团队选取了部分中英文典型数据集进行了评测,以下为ChatGLM2-6B模型在MMLU(英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。 MMLU C-Eval GSM8K BBH 推理性能 ChatGLM2-6B使用 M...
我们选取了部分中英文典型数据集进行了评测,以下为 ChatGLM2-6B 模型在 MMLU (英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。 推理性能 ChatGLM2-6B 使用了 Multi-Query Attention,提高了生成速度。生成 2000 个字符的平均速度对比如下 Multi-QueryAttention 同时也降低了生成过程中 KV Cache 的...
性能升级ChatGLM2-6B 是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上,ChatGLM2-6B 引入了如下新特性:更强大的性能:基于 ChatGLM 初代模型的开发经验,我们全面升级了 ChatGLM2-6B 的基座模型。ChatGLM2-6B 使用了 GLM 的混合目标函数,经过了 ...
相比于初代模型,ChatGLM2-6B 在多个维度的能力上,都取得了巨大的提升。 数理逻辑 知识推理 长文档理解 评测结果 研究团队选取了部分中英文典型数据集进行了评测,以下为 ChatGLM2-6B 模型在 MMLU(英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。 MMLU C-Eval GSM8K BBH 推理性能 ChatGLM2-6B...
我们选取了部分中英文典型数据集进行了评测,以下为 ChatGLM2-6B 模型在 MMLU (英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。推理性能 ChatGLM2-6B 使用了 Multi-Query Attention,提高了生成速度。生成 2000 个字符的平均速度对比如下 Multi-Query Attention 同时也降低了生成过程中 KV ...
相比于初代模型,ChatGLM2-6B在多个维度的能力上,都取得了巨大的提升。 数理逻辑 知识推理 长文档理解 评测结果 研究团队选取了部分中英文典型数据集进行了评测,以下为ChatGLM2-6B模型在MMLU(英文)、C-Eval(中文)、GSM8K(数学)、...
在主要评估LLM模型中文能力的 C-Eval 榜单中,截至6月25日 ChatGLM2 模型以 71.1 的分数位居 Rank 0 ,ChatGLM2-6B 模型以 51.7 的分数位居 Rank 6,是榜单上排名最高的开源模型。
下图是目前最新的C-Eval测评结果榜单:首先,从测试结果上看,我认为ChatGLM2-6B超越GPT4是比较真实的,大家从榜单的具体成绩可以看出,ChatGLM2-6B主要赢在Social Science,Humanities 和 Others 这三项上。而这三项实际上和训练的语料关系是比较大的,其中的很多项目是和国家的国情相关的,而非世界通识。因此,虽然...
相比于初代模型,ChatGLM2-6B在多个维度的能力上,都取得了巨大的提升。 数理逻辑 知识推理 长文档理解 评测结果 研究团队选取了部分中英文典型数据集进行了评测,以下为ChatGLM2-6B模型在MMLU(英文)、C-Eval(中文)、GSM8K(数学)、BBH(英文) 上的测评结果。