近期还挣扎在NLP大坑,在科学空间(kexue.fm)期待大家的拯救。 苏剑林,今年(2009)正好16岁,居住在广东省云浮市的一个小村庄。 我从小就对科学感兴趣,数学是我的强项,不过到了初三,还要加上一个“化学”。 我从2006.09开始接触电脑,而接触网络的时间就是2007.01,想想看,发展还是挺快的(接触电脑之前我可是一...
苏剑林的故事,不仅仅是个人成长的轨迹,更是对科学精神的传承与发扬。在追求知识的道路上,他以坚韧不拔的毅力,不断探索,不断前行,为科学空间带来了无尽的光芒。
生成扩散模型漫谈(十四):ODE扩散的统一框架 - 科学空间|Scientific Spaces 一篇推导了将近两个月的文章,包含高斯扩散、万有引力扩散等各种ODE式扩散模型的统一理论框架,给出了构建ODE式扩散模型的一般方法。 发布于 2022-12-15 12:14・IP 属地中国香港 ...
Transformer升级之路:14、当HWFA遇见ReRoPE - 科学空间|Scientific Spaces 本文提出了HWFA与ReRoPE的组合使用方式,小规模的实验结果显示,这种组合能够在不损失训练效果的同时,达到近乎最佳的长度外推效果,并且得益于HFWA的设计,还可以明显地降低推理成本,有效地缓解了ReRoPE原本的推理成本增加的缺点。
Transformer升级之路:7、长度外推性与局部注意力 - 科学空间|Scientific Spaces 本文总结了增强Transformer的长度外推能力的相关工作,其中包含了一个简单但强大的基线方案,以及若干篇聚焦于长度外推性的相关工作,从中我们可以发现,这些工作本质上都是基线方案——局部注意力的变体,局部注意力是长度外推的关键环节之一。
缓解交叉熵过度自信的一个简明方案 - 科学空间|Scientific Spaces 围绕交叉熵的改进,学术界一直都有持续输出,目前这方面的研究仍处于“八仙过海,各县神通”的状态,没有标准答案。本文介绍最近的一个简单修改。 发布于 2023-03-14 16:36・IP 属地广东
EMO:基于最优传输思想设计的分类损失函数 - 科学空间|Scientific Spaces 本文介绍了交叉熵损失的一个新的“替代品”——基于最优传输思想的EMO,与以往的小提升不同,EMO在LLM的继续训练评测中取得了较为明显的提升。 发布于 2023-10-13 17:27・IP 属地广东 ...
Google新作试图“复活”RNN:RNN能否再次辉煌? - 科学空间|Scientific Spaces 线性化、对角化、参数化、初始化...这是一篇关于RNN的“化”功大法。 本文介绍了Google“拯救”RNN的一次尝试,自上而下地构建了一个在LRA上表现接近SOTA的高效RNN模型。除了原论文在LRA上的实验外,本文还给出了笔者自己在语言模型上的实...