跟大家分享一位技术牛人:苏剑林,这也是我在同龄人比较钦佩的牛人,最贴切的比喻就是低调的扫地僧吧。先看看他的个人简介: 中山大学基础数学研究生,本科为华南师范大学。93年从奥尔特星云移民地球,因忘记回家路线,遂仰望星空,希望找到时空之路。同时兼爱各种科学,热衷钻牛角尖,因此经常碰壁,但偶然把牛角钻穿,也乐在其中...
苏剑林,一位技术牛人,用行动诠释了低调与专注的魅力。他以中山大学基础数学研究生的身份,展现了对科学的深厚热爱与不懈追求。从奥尔特星云到地球,他追寻着时空之路,将对物理、天文、计算机的狂热融入了对科学的探索。苏剑林的故事,始于对科学的浓厚兴趣与数学的卓越天赋。从接触电脑的那一刻起,他便踏...
苏剑林 数学、python、数据挖掘、天文 生成扩散模型漫谈(十四):ODE扩散的统一框架 - 科学空间|Scientific Spaces 一篇推导了将近两个月的文章,包含高斯扩散、万有引力扩散等各种ODE式扩散模型的统一理论框架,给出了构建ODE式扩散模型的一般方法。 发布于 2022-12-15 12:14・IP 属地中国香港 ...
苏剑林 数学、python、数据挖掘、天文 Transformer升级之路:14、当HWFA遇见ReRoPE - 科学空间|Scientific Spaces 本文提出了HWFA与ReRoPE的组合使用方式,小规模的实验结果显示,这种组合能够在不损失训练效果的同时,达到近乎最佳的长度外推效果,并且得益于HFWA的设计,还可以明显地降低推理成本,有效地缓解了ReRoPE原本...
苏剑林 数学、python、数据挖掘、天文 Transformer升级之路:7、长度外推性与局部注意力 - 科学空间|Scientific Spaces 本文总结了增强Transformer的长度外推能力的相关工作,其中包含了一个简单但强大的基线方案,以及若干篇聚焦于长度外推性的相关工作,从中我们可以发现,这些工作本质上都是基线方案——局部注意力的变...
苏剑林 数学、python、数据挖掘、天文 缓解交叉熵过度自信的一个简明方案 - 科学空间|Scientific Spaces 围绕交叉熵的改进,学术界一直都有持续输出,目前这方面的研究仍处于“八仙过海,各县神通”的状态,没有标准答案。本文介绍最近的一个简单修改。
苏剑林 知势榜科技互联网领域影响力榜答主 EMO:基于最优传输思想设计的分类损失函数 - 科学空间|Scientific Spaces 本文介绍了交叉熵损失的一个新的“替代品”——基于最优传输思想的EMO,与以往的小提升不同,EMO在LLM的继续训练评测中取得了较为明显的提升。
苏剑林 数学、python、数据挖掘、天文 Google新作试图“复活”RNN:RNN能否再次辉煌? - 科学空间|Scientific Spaces 线性化、对角化、参数化、初始化...这是一篇关于RNN的“化”功大法。 本文介绍了Google“拯救”RNN的一次尝试,自上而下地构建了一个在LRA上表现接近SOTA的高效RNN模型。除了原论文在LRA上的实验...