这款模型名为Reflection 70B,之所以取这个名字,是因为它采用了一种新的训练技术,叫做反思微调(Reflection Tuning),这种技术教大语言模型(LLM)检测自己的推理错误并进行自我纠正。 创作者分享了基准测试的结果,正如你所看到的,它在几乎每个基准测试中都击败了其他所有模型,简直令人难以置信。 不过,仅凭这些基准测试还不...
Reflection-70B is an advanced open-source language model that aims to address the hallucination problem in AI systems
而这个突然冒出来的名为“REFLECTION”的 70B模型声称它在减轻大模型幻觉方面表现出显著改进。在发布当日,它发布的MMLU、MATH 和 IFEval 等基准测试反映了它在 GPT-4 和 Sonnet 3.5 等模型之上的优越性。反思 70B 在 MMLU 上达到了 89.9%,在 MATH 上达到了 79.7%,在 IFEval 上达到了 90.1%,证实了其在生成...
不过,Reflection 70B 的发布只是 Reflection 系列的开端,405B 版本也已经在训练了。 在经过了一天的发酵后,两位作者也首次露面,在一档访谈节目中披露了关于该模型的更多详细信息,并表示将在下周发布 Reflection 70B 的技术报告。 视频地址:https://www.youtube.com/live/5_m-kN64Exc 机器之心对视频中的信息进行...
Reddit 上的讨论显示,Reflection 70B 可能是基于 Llama 3 而非 Llama 3.1,并使用了 LoRA(低秩近似)微调技术。部分用户通过代码分析验证了两者的权重差异,表明 Reflection 模型与 Llama 3 更为相似,尤其是在语言理解任务中反应不一致。此外,模型的权重问题也引发了社区质疑,开发者 Matt Shumer 解释称,Hugging Face ...
「开源新王」Reflection 70B,才发布一个月就跌落神坛了? 9月 5 日,Hyperwrite AI 联创兼 CEO Matt Shumer 在 X 上扔出一则爆炸性消息 —— 用Meta 的开源 Llama 3.1-70B,团队微调出了 Reflection 70B。它的基准测试结果惊人,可以和 Claude 3.5 Sonnet 以及 GPT-4 这类顶级闭源模型一较高下,直接登顶「世...
近期,一个名为Reflection 70B的开源大模型引起了广泛关注,它在多个基准测试中展现出了卓越的性能,包括MMLU、MATH、IFEval和GSM8K等,其表现甚至超过了知名的GPT-4o和Llama 3.1 405B。这一成就的背后,是AI写作初创公司HyperWrite的不懈努力和一项名为“Reflection-Tuning”的训练技术创新。Reflection 70B模型的卓越...
在人工智能领域,大模型的发展日新月异,不断有新的技术突破和创新成果涌现。 近期,一个名为Reflection 70B的开源大模型引起了广泛关注,它在多个基准测试中展现出了卓越的性能,包括MMLU、MATH、IFEval和GSM8K等,其表现甚至超过了知名的GPT-4o和Llama 3.1 405B。
开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。 新模型名为Reflection 70B,使用一种全新训练技术,让 AI 学会在推理过程中纠正自己的错误和幻觉。 比如最近流行的数 r 测试中,一开始它犯了和大多数模型一样的错误,但主动在<反思> 标签中纠正了自己。
IT之家 9 月 11 日消息,科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 ...