“搞深度学习做的90%的事情可能都是在试错,因为本质上我们做技术是在和天斗。”知乎上有一个“你为什么愿意留在旷视”的帖子,下面有一个回答是:“最关键的是有一群可以交流讨论的大牛,在公司那段时间经常和Tim(昕宇)在白板前聊到深夜,就为了追求一...
因为 Long-CoT 的有效性,其实在一年多前月之暗面Kimi联合创始人Tim周昕宇就验证过,使用很小的模型,训练模型做几十位的加减乘除运算,将细粒度的运算过程合成出来变成很长的 CoT 数据做 SFT,就可以获得非常好的效果。“我依然记得当时看到那个效果的震撼。”Flood Sung表示,公司意识到 Long Context的重要性,所以...
如何看待贾扬清离沪后因内外不一发言而引发大量讨论? 2022-04-15 10:51371 个回答1,349 个关注 如何评价 Google 在 2022 年 3 月公开的 Pathways 架构设计? 2022-03-28 14:5518 个回答936 个关注 如何看待香港科技大学(广州)招聘给出500万元科研启动经费+400~800万元配套费?
2月17日消息,月之暗面公司在其最新发布的多模态推理模型k1.5中,展现了长思维链(Long-Chain Reasoning)这一关键技术的核心价值。与此同时,联合创始人Tim周昕宇和研究员FloodSung也分享了该模型的开创历程,揭示了这一技术在人工智能领域的重要性及其演变过程。 长思维链技术是通过将复杂问题分解为多个细小推理步骤,从而...
“搞深度学习做的90%的事情可能都是在试错,因为本质上我们做技术是在和天斗。”知乎上有一个“你为什么愿意留在旷视”的帖子,下面有一个回答是:“最关键的是有一群可以交流讨论的大牛,在公司那段时间经常和Tim(昕宇)在白板前聊到深夜,就为了追求一...
2月17日消息,月之暗面公司在其最新发布的多模态推理模型k1.5中,展现了长思维链(Long-Chain Reasoning)这一关键技术的核心价值。与此同时,联合创始人Tim周昕宇和研究员FloodSung也分享了该模型的开创历程,揭示了这一技术在人工智能领域的重要性及其演变过程。
动态 回答2 视频0 提问2 文章1 专栏0 想法0 收藏9 关注订阅 他关注的人关注他的人 他订阅的专栏 Fazzie MLsys超级兵,画饼吹水 | 白天摸鱼,摸黑干活 74 回答8 文章3,117 关注者 关注他 ZHANG Mingxing 清华大学 助理教授 ...
IP 属地北京 计算机软件 清华大学 计算机 动态 回答2 视频0 提问2 文章1 专栏0 想法0 收藏9 关注订阅 他关注的人关注他的人 他订阅的专栏 Fazzie 白天摸鱼,摸黑干活 76 回答8 文章3,285 关注者 关注他 ZHANG Mingxing