明明要学基础数学,偏偏不务正业,沉溺神经网络,妄想人工智能,曾未在ACL、AAAI、COLING等会议上发表一篇文章。近期还挣扎在NLP大坑,在科学空间(https://kexue.fm)期待大家的拯救。 苏剑林,今年(2009)正好16岁,居住在广东省云浮市的一个小村庄。 我从小就对科学感兴趣,数学是我的强项,不过到了初三,还要加上...
苏剑林的故事,不仅仅是个人成长的轨迹,更是对科学精神的传承与发扬。在追求知识的道路上,他以坚韧不拔的毅力,不断探索,不断前行,为科学空间带来了无尽的光芒。
生成扩散模型漫谈(十四):ODE扩散的统一框架 - 科学空间|Scientific Spaces 一篇推导了将近两个月的文章,包含高斯扩散、万有引力扩散等各种ODE式扩散模型的统一理论框架,给出了构建ODE式扩散模型的一般方法。 发布于 2022-12-15 12:14・IP 属地中国香港 ...
在深入研究生成式模型时,我偶然接触到了「科学空间」博客。它集成了可逆模型、Gumbel Softmax等多篇深入浅出的文章,让我领略了知识串联的魅力,收获颇丰。博客的排版设计简洁美观,阅读体验极佳。得知「科学空间」博客的作者是苏剑林同学后,我深感敬佩。他的博客内容不仅涵盖了机器学习领域,还延伸到数学...
浏览了一遍苏老师科学空间的数学部分,发现他的博客是2009年(估计苏老师当时正高一)开始写的,而且没...
同时兼爱各种科学,热衷钻牛角尖,因此经常碰壁,但偶然把牛角钻穿,也乐在其中。偏爱物理、天文,喜欢思考,崇拜费曼,虽擅长理性分析,但也容易感情用事。长期阅读《天文爱好者》和《环球科学》,没事偷懒玩玩象棋,闲时爱好进入厨房做几道小菜,偶尔也当当电工。近期主要学习理论物理,在科学空间期待大家的指教。
Transformer升级之路:14、当HWFA遇见ReRoPE - 科学空间|Scientific Spaces 本文提出了HWFA与ReRoPE的组合使用方式,小规模的实验结果显示,这种组合能够在不损失训练效果的同时,达到近乎最佳的长度外推效果,并且得益于HFWA的设计,还可以明显地降低推理成本,有效地缓解了ReRoPE原本的推理成本增加的缺点。
Transformer升级之路:7、长度外推性与局部注意力 - 科学空间|Scientific Spaces 本文总结了增强Transformer的长度外推能力的相关工作,其中包含了一个简单但强大的基线方案,以及若干篇聚焦于长度外推性的相关工作,从中我们可以发现,这些工作本质上都是基线方案——局部注意力的变体,局部注意力是长度外推的关键环节之一。
缓解交叉熵过度自信的一个简明方案 - 科学空间|Scientific Spaces 围绕交叉熵的改进,学术界一直都有持续输出,目前这方面的研究仍处于“八仙过海,各县神通”的状态,没有标准答案。本文介绍最近的一个简单修改。 发布于 2023-03-14 16:36・IP 属地广东
我从一个单纯的追读者角度发表一下感慨,能在刚入门nlp的时候就遇到科学空间这样美好的课堂,是非常幸运...