在内存容量方面,我们曾在《爆火的DeepSeek一体机,更多满足的是情绪价值|甲子光年》中提到,如果要实现在一体机上运行满血版DeepSeek大模型,就必须把参数、配置拉满,起码显存要做到808-846GB,机器才能装得下6710亿参数。甲子光年 在内存带宽方面,DeepSeek每生成一个Token激活的参数大概是37B,这就要求总的内存...
1.训练退场,算力需求重构 2023年底,DeepSeek-MoE模型横空出世,许多AI公司的核心工程资源都从模型训练转向推理优化。这一变化背后,正是杰文斯悖论在AI行业的再现。「甲子光年」认为,这种变化不仅是一种经济现象,更是一种技术范式的根本切换。过去衡量AI进展的核心指标是参数规模和训练成本——谁能训练出万亿参数大...
但是最近有一种观点是,DeepSeek看起来不是产业政策主导的成果,从而质疑产业政策在科技发展中的作用。这是一种误读,我们可以做一个类比:DeepSeek可能是一个不同寻常的“天才”,你可以分析“天才”成功的原因,但你不能因为“天才”的成功,而去否定其他学生的培养方式。还有一种观点是,DeepSeek的成功离不开当地...
应用场景变革 超级产品与普惠应用:2024 年 AI 超级应用榜首多变,2025 年 DeepSeek 开年 DAU 达 2161 万,具超级应用潜力。DeepSeek 类似 AI 时代 “小米模式”,实现技术与价格普惠,降低训练与推理成本,推动具身智能发展及 C 端应用落地。 全球竞争格局:DeepSeek 成为美国政策制定参考,特朗普政府政策倾向依靠企业发展...
继DeepSeek之后,以Manus为代表的 AI Agent引发了今年人工智能领域的第二波小高潮。各大厂都在试水AI Agent产品,创业公司们更是围绕AI Agent展开激烈的技术竞速与场景争夺。在本次论坛中,面壁智能联合创始人兼CEO李大海分享了他对AI Agent的看法。他认为,大模型和Agent只是两种不同的称呼,“大模型与 Agent 的...
甲子光年2、算力拐点:DeepSeek的出现,意味着算力效率拐点显现 2、算力拐点:DeepSeek的出现,意味着算力效率拐点显现 甲ATE DeepSeek通过优化算法架构,显著提升了算力利用效率,打破了算力至上的传统认知 训练算力(petaFLOPs) 训练算力(petaFLOPs) GeminiUltra GeminiUltra 1.E+12 1.E+12 o1 演01 GPT4 VIDIAGGPT-4 ...
2025DeepSeek开启AI算法变革元年.pdf 一、DeepSeek的技术特点与市场影响 (一)技术背景 DeepSeek的出现,正值人工智能发展至战略拐点的关键时刻。经过近七十年的发展,人工智能的核心能力已经从最初的感知、认知阶段,逐步提升至决策、学习、执行乃至社会协作能力。如今,人工智能正朝着符合人类情感、伦理与道德观念的智能机器...
DeepSeeK开启AI算法变革元年-甲子光年 经过近70年的发展,AI的核心能力不断提升,如今已覆盖感知、认知、决策等多个领域。然而,技术的成熟也带来了新的挑战。2025年,人工智能正处于从技术驱动向需求应用驱动转型的关键时期。在这个转折点上,DeepSeeK的出现如同一颗新星,其产品发布20天后,日活跃用户数就达到了2161...
柳钢:如果不考虑私有化部署,我们会自然选择性能最强的模型,比如DeepSeek的685B。但在私有化部署时,满血版模型成本过高,我们需要在私有化部署中寻找适合的解决方案。就像建一个小型自来水厂,虽然规模小,但能满足需求。这就需要对特定领域有专业知识(know-how),比如模型组合、算力分层和软硬件优化。这部分投入对于不涉...
云中江树对「甲子光年」表示,相比DeepSeek、Llama模型来说,千问3具有更丰富的谱系选择,能够更好的支持全场景的落地应用需求。同时,千问3所有模型均在Apache2.0许可下开源,是非常宽松的开源协议,不但允许商业使用,还允许修改和分发代码,不需要分享修改后的源代码。并且Apache 2.0的法律全面性、专利保护更好,...