FITS(Frequency Interpolation Time Series Analysis Baseline)这篇文章发表于ICLR2024,也是之前SOTA的线性模型DLinear团队的最新论文。FITS的主要贡献在于基于傅立叶变换和低通滤波,通过在复频域内进行插值来操作时间序列,结合时域和频域优势,适用于边缘计算和实时分析任务,据作者所说,它具有大约10,000个参
论文还引入了模式切换的概念,其中下游微调与特定的预训练方案相关联。我们进行了广泛的消融实验来比较多个预训练目标,发现论文的方法在多个不同的设置中优于T5和/或GPT类模型,从而推动了帕累托前沿。最后,通过将模型扩展到20B参数,论文在50个完善的有监督NLP任务上实现了SOTA性能,这些任务包括语言生成(自动和人工评估...
AReaL-boba² 基于最新的 Qwen3 系列模型,针对 8B 和 14B 尺寸进行 coding RL 训练,并在评测代码能力的榜单 LiveCodeBench v5 (LCB),Codeforce (CF) 以及 Codecontests (CC) 上取得了开源 SOTA 的成绩。其中,基于部分内部数据的最强模型 AReaL-boba²-14B 在 LCB 榜单上取得了 69.1 分,CF rating ...
最后在选择 NIST Chinese-English 数据集时,我们发现早一段时间冯洋等研究者提出的 Oracle Word 能获得当前 SOTA 结果,该研究也获得了 ACL 2019 最佳论文。 总体而言,这三个 SOTA 模型都有着独特的优化方向,其中 Transformer Big + BT 探索用更多的单语数据强化模型效果、MASS 探索预训练语言模型与无监督的翻译方...
基于量化的模型压缩在BERT以及CV领域的一些模型中实现了模型效果微小下降前提下的压缩,华为和港大提出了适用于GPT等自回归语言模型的量化压缩技术,并被评选为ACL 2022的杰出论文。接下来先给大家介绍基于量化的模型压缩方法的基本思路,然后介绍这篇论文提出的改进方法。
通过AMiner团队开放的「AI速读论文」能力——基于学术预训练模型对文献全文理解而抽取的论文重点信息,包括背景、方法、结果、结论、图标等重点内容,让用户对论文概要一目了然。 具体来说,用户可在SOTA!模型平台技术进展流或优选资源详情页中点击「速读论文」按钮,即可前往AMiner平台对应链接查看该项目对应的论文以及AI理解...
字节Seed首次开源代码模型!Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。它证明“只需极少人工参与,LLM就能自行管理代码训练数据”。通过自身生成和筛选高质量训练数据,可大幅提升模型代码生成能力。这可以被视为对DeepSeek-R1模型自我生成和...
于是,新的SOTA模型诞生了 针对GAN的这些问题,OpenAI的两位研究人员Prafulla Dhariwal和Alex Nichol便着眼于其他体系架构。在他们发布的最新论文「扩散模型在图像合成方面击败了GAN」中,称提出的扩散模型架构解决了GAN的缺点,并且在图像生成任务中击败了GAN,达到了SOTA的水平。不得不说,他们在题目中便用到「Beat」(...
8月1日-8月3日,我们邀请到复旦大学博士,一线互联网资深算法研究员Hank老师为大家带来——大模型X知识图谱前瞻性进化路线!来和大家深入探讨LLMs和KGs融合的未来趋势与创新方向! 扫码预约直播 免费领19篇知识图谱前沿论文 19篇知识图谱前沿论文 讲师介绍:Hank老师 ...
6月5日消息(报道:李楠)近日,清华蚂蚁联合研发的全异步强化学习训练系统AReaL-boba2(AReaL v0.3 )正式宣布开源。据了解,这一系统全面实现了异步强化学习训练,完全解耦模型生成与训练,性能效果不变的前提下,训练速度对比上一版本最高提升2.77倍,GPU资源利用率大幅优化。研究人员使用这一系统在Q... ...