IT之家 3 月 25 日消息,Arc Prize 基金会是一家由知名人工智能研究员弗朗索瓦・肖莱(François Chollet)共同创立的非营利组织,该基金会于本周一在其博客上宣布推出一个名为 ARC-AGI-2 的全新测试,旨在衡量领先人工智能模型的通用智能水平。这项测试的难度极高,截至目前,大多数 AI 模型都在该测试中表...
近日,Arc Prize 基金会发布了一项全新的测试 ——ARC-AGI-2,旨在测量人工智能(AI)模型的通用智能水平。该基金会由著名 AI 研究者 François Chollet 共同创立。根据基金会的博客,这项新测试对大多数领先的 AI 模型提出了严峻挑战。根据 Arc Prize 排行榜,诸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “...
再比如,昨天微软宣布人工智能新闻翻译可以媲美人类,但如果处理如医学注释等不熟悉领域的对话或文本时,AI还将再次陷入困境。目前,ARC项目的进展和相关的数据集已经公开,感兴趣同学可以移步ARC项目的官网看看AI2是怎样测试AI对物理世界的理解的。大侠请接好项目地址:http://data.allenai.org/arc/ 还有一份AI2给...
在X平台上,肖莱提到说,ARC-AGI-2这个测试比之前那个ARC-AGI-1更能准确地测出AI模型到底有多聪明。Arc Prize基金会搞的这个测试呢,主要是看看AI系统能不能在训练数据之外,快速学会新技能。肖莱还说,跟ARC-AGI-1不一样的是,新的ARC-AGI-2测试不让AI模型靠“硬算”,就是用超级多的计算能力去暴力找答案。
近期,由知名人工智能专家弗朗索瓦·肖莱携手创立的非营利组织Arc Prize基金会,在其官方博客上揭晓了一项名为ARC-AGI-2的全新测试。该测试旨在深入评估当前领先的人工智能模型的通用智能水平,其难度系数极高,令众多AI模型望尘莫及。 根据Arc Prize排行榜的数据揭示,那些在推理领域表现突出的AI模型,例如OpenAI的o1-pro和...
ARC数据集包含从各种来源提取的7,787项科学考试问题,包括由AI2附属研究合作伙伴授权提供的科学问题。这些是纯文本的英语考试题,涵盖了文件中指示的多个年级。每个问题都有一个选择结构(通常有4个答案选项)。这些问题分为2590个“难题”挑战题集(检索和共现方法均无法正确回答的问题)和5197个简单题集。每个都预先分...
日前,Arc Institute 与 NVIDIA 合作,联合斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的研究人员,共同推出了全球最大的生物学人工智能模型 ——Evo2。该模型以超过128,000个基因组的数据为基础,训练了9.3万亿个核苷酸,使其规模与最强大的生成性 AI 语言模型相媲美。Evo2的深度学习能力使其能够快速识别不...
The AI2’s Reasoning Challenge (ARC) dataset is a multiple-choice question-answering dataset, containing questions from science exams from grade 3 to grade 9. The dataset is split in two partitions: Easy and Challenge, where the latter partition contains
原来啊,ARC-AGI-2恰恰暴露了当前AI的三大短板:符号解释、组合推理、上下文规则应用。LLM们往往靠预训练数据“硬背”过关,可到了真正要展现适应能力,灵活应对新问题的“流体智力”时,就不行了。就好比符号解释这块,前沿AI推理系统处理需要赋予符号超出视觉模式意义的任务时,表现太差劲了,能做些表面的检查、变换...
目前先进模型在ARC-AGI-1与ARC-AGI-2之间的表现差异,清楚呈现出模型在处理更高层次推理任务时的不足。以OpenAI的o3-low系统为例,在ARC-AGI-1中可达75.7%的通过率,但在ARC-AGI-2中的得分仅剩约4%,而GPT-4.5等纯语言模型在新版本更是完全无法作答成功。ARC-AGI-2也正式纳入效率评估指标,将解题成本列...