上述三个动态可以帮助我们理解 DeepSeek 最近发布的模型。大约一个月前,DeepSeek 发布了名为 "DeepSeek-V3 "的模型,这是一个纯粹的预训练模型3,也就是上文 #3 所描述的第一阶段。上周,他们又发布了 "R1",增加了第二阶段。从外部无法确定这些模型的所有信息,但以下是我对这两个版本的最佳理解。DeepSee...
由于 DeepSeek-V3 比美国前沿模型更差——假设在扩展曲线上差约 2 倍,我认为这对 DeepSeek-V3 来说相当慷慨——这意味着如果 DeepSeek-V3 的训练成本比一年前开发的当前美国模型低约 8 倍,这将是完全正常的,完全“符合趋势”。我不会给出一个数字,但从前面的要点可以清楚地看出,即使你从表面上看 Deep...
2024年7月,Anthropic首席执行官Dario Amodei在In Good Company播客节目中透露,他们正在开发的大模型训练成本更是高达10亿美元,并且预计三年内这个数字会上升到100亿甚至1000亿美元。但是,仅仅半年之后,一个挑战者,一条鲶鱼,一个搅局者——DeepSeek便硬生生的闯了进来。12月26日,DeepSeek-V3正式发布,在知名的...
周三,Anthropic 首席执行官达里奥·阿莫迪 (Dario Amodei) 发布了一篇长文讨论了DeepSeek的进展,他指出DeepSeek 并没有“用 600 万美元做到美国 AI 公司花费数十亿美元才能实现的事情”。以 Anthropic 为例,Claude 3.5 Sonnet 是一个中等规模的模型,训练成本达数千万美元,远不是数十亿美元级别。他认为DeepSee...
2024年12月底,中国幻方量化旗下的人工智能团队,发布了6700亿参数大语言基础模型DeepSeek V3,紧接着在2025年1月20日开源了基于V3的两款推理模型:DeepSeek-R1-Zero和DeepSeek-R1。一周之后,DeepSeek又推出开源多模态模型Janus。 震惊全球AI届的点在于:DeepSeek使用想象不到的低成本,得到了不输OpenAI推理模型o1太多的...
https://darioamodei.com/on-deepseek-and-export-controls 种种迹象表明,开源的力量似乎正打破传统封闭模式的壁垒,不仅倒逼封闭模型加速商业化进程,也为全球AI生态的多元化发展带来了新的机遇和挑战。#03 AI开发进入“乐高时代”?——普惠与未来展望在全球AI竞赛中,不同地区正走向截然不同的发展路径。美国强调...
据美国消费者新闻与商业频道(CNBC)当地时间1月29日报道,美国AI初创公司Anthropic首席执行官达里奥·阿莫迪(Dario Amodei)当天在一篇博客文章中表示,他并不认为中国的DeepSeek是“对手”,但他认为,在AI领域的出口管制比以往任何时候都更加重要。“鉴于我的重点是出口管制和美国国家安全,我想明确一件事。我并不...
Deepseek V3的 Aider代码能力排行榜正确率为48.4%,仅次于OpenAI o1,超过…By Dario Amodei ...
MoE)语言模型DeepSeek-V3,其整体参数规模达到671B,其中每个token激活的参数量为37B。DeepSeek-V3在...
Claude的创始人Dario Amodei在近日发表博客,称:DeepSeek的进展让美国对中国的芯片出口管制政策,比一周前更加关乎美国的“生死存亡”,并要求美国加强对中国的芯片封锁。此外,在1月30日凌晨,中国奇安信XLab实验室监测发现,针对DeepSeek、线上服务的攻击烈度突然升级,其攻击指令较1月28日暴增上百倍。奇安信安全专家...