金十数据3月4日讯,据豆包大模型团队官微消息,近日,豆包大模型团队开源SuperGPQA,一个领域全面且具备高区分度的知识推理基准测试。据介绍,该数据集构建了覆盖285个研究生级学科、包含26529道专业问题的评估体系,不仅涵盖主流学科,更将轻工业、农业、服务科学等长尾学科纳入其中,展现出全面学科的覆盖广度,填补了长尾知识评估领域的空白。
Anthropic公司推出的新一代人工智能模型家族——Claude 3。这个家族包括三个不同能力的模型:Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。每个模型都提供了不同的智能、速度和成本的平衡,以适应不同的应用需求。 anthropic.com/news/clau 其中Claude 3 Opus版本模型在MMLU、GPQA、GSM8K等多个数据集上已经超越...
超出范围的用例: 不适用于所有下游任务,特别是高风险场景,开发者需评估准确性、安全性和公平性。 数据概览 训练数据: 扩展自Phi-3,包含公共文档、教育数据、合成教学数据、学术书籍和聊天格式数据。多语言数据占8%,专注于提升推理能力。基准数据集: 使用MMLU、MATH、GPQA、DROP、MGSM、HumanEval和SimpleQA进行评估,...
2、Gemini 2.5 Pro 在需要高级推理的基准测试中表现出色,比如谷歌介绍在数学和科学benchmark(如 GPQA 和 AIME 2025)中均处于领先地位。3、编码能力, Gemini 2.5 在编码性能方面实现了巨大的提升,尤其擅长创建具有视觉吸引力的 Web 应用程序和Agent代码应用程序,以及代码转换和编辑。在SWE-Bench Verified 上,Gemini ...
OpenThinker32B横扫推理测试 | OpenThinker 是由 Qwen2.5 微调后的开源推理模型家族,基于 OpenThoughts-114k 数据集,旨在超越 DeepSeek-R1 的蒸馏模型。 模型概览: OpenThinker-32B: 命令:ollama run openthinker:32b性能表现优于一些同类模型,特别是在 MATH500 和 GPQA Diamond 测试中。
发布OpenThinker-32B:最强推理模型 | 发布 OpenThinker-32B:最强的开源数据推理模型,源自 DeepSeek-R1。 我们的结果显示,大规模、精心策划的数据集和经过验证的 R1 注释能生产出最先进的推理模型。我们的 32B 模型在 MATH500 和 GPQA Diamond 上超越了所有其他 32B 模型,包括使用闭源数据的 DeepSeek-R1-Distill-...
核心内容:提示词技术、应用、模型、论文、工具、数据集等! 提示词技术:0样本/少样本,CoT(思维链)/ToT(思维树)/ART(自动推理+工具),ReAct/PALM(程序辅助)/GP(图),自洽/提示链等! 应用:辅助代码/创意、QA/分类/信息提取/数学等! 😘非常全面、专业、由浅入深!