MOIRAI-MOE 总共部署了 32 个专家,每个输入会激活其中得分最高的 2 个(TopK=2): 方程1: 传统 MOE 模型中常用的基础门控函数 MOIRAI-MOE 对门控机制进行了创新性改进,用更精细的机制替代了简单的线性投影 W: 研究团队首先对预训练的 MOIRAI 模型的自注意力权重进行 K-Means 聚类,其中聚类数 M 等于专家总数...
实验数据显示,尽管 MOIRAI-MOE-Base 的总参数量是 MOIRAI-Large 的 3 倍,但由于 MOE 机制的作用,其实际仅激活 86M 参数,使得运行时间明显优于 MOIRAI-Large (370s vs. 537s)。 从技术实现角度看,MOIRAI-MOE 使用稀疏混合专家层替代了传统的...
实验数据显示,尽管 MOIRAI-MOE-Base 的总参数量是 MOIRAI-Large 的 3 倍,但由于 MOE 机制的作用,其实际仅激活 86M 参数,使得运行时间明显优于 MOIRAI-Large (370s vs. 537s)。 从技术实现角度看,MOIRAI-MOE 使用稀疏混合专家层替代了传统的全连接层。该层包含一个门控函数,用于计算路由分数并将输入分配给得...
MOIRAI-MOE 在与原始 MOIRAI 相同的 LOTSA 数据集上进行了预训练,该数据集包含来自 9 个领域的 270 亿个观测值。 研究采用了实验确定的 patch_size = 16。Small 和 Base 版本分别训练了 5 万轮和 25 万轮。考虑到 MOIRAI-MOE-Base 已达到 MOIRAI-Large 的性能水平,因此未训练 Large 版本。 评估分为两个...
近期,来自 Salesforce、新加坡国立大学、香港科技大学(广州)的研究者以模型专家化这一全新视角作为抓手,设计并提出了下一代时序预测基础模型 Moirai-MoE。该模型将模型专业化设计在 token 这一细粒度运行,并且以完全自动的数据驱动模式对其赋能。模型性能方面,不同于仅在少量数据集上进行评估的已有时序基础模型,...
近期,来自 Salesforce、新加坡国立大学、香港科技大学(广州)的研究者以模型专家化这一全新视角作为抓手,设计并提出了下一代时序预测基础模型 Moirai-MoE。该模型将模型专业化设计在 token 这一细粒度运行,并且以完全自动的数据驱动模式对其赋能。...
MOIRAI 与 MOIRAI-MOE 的架构差异对比 混合专家模型在提升预测准确率方面的作用机理 MOE 架构对解决时间序列建模中频率变化问题的技术贡献 MOIRAI 与 MOIRAI-MOE 的技术对比 MOIRAI-MOE 采用纯解码器架构,通过混合专家模型实现了频率无关的通用预测能力,同时显著降低了模型参数规模。
MOIRAI 是 Salesforce 开发的早期时间序列基础模型,凭借出色的基准测试性能和开源的大规模预训练数据集 LOTSA 获得广泛关注。最新升级版本 MOIRAI-MOE 引入混合专家模型(Mixture of Experts, MOE),在模型性能上实现显著提升。本文深入分析 MOIRAI-MOE 的技术架构与实现
作为早期时间序列基础模型之一,Salesforce 开发的MOIRAI凭借其出色的基准测试性能以及开源的大规模预训练数据集 LOTSA 在业界获得了广泛关注。 本文在此前对 MOIRAI 架构原理的深入分析基础上,重点探讨其最新升级版本MOIRAI-MOE。该版本通过引入混合专家模型(Mixture of Experts, MOE)机制,在模型性能方面实现了显著提升。
Moirai-MoE, the first MoE time series model, boosts accuracy up to 17% over Moirai and uses 65x fewer parameters than Chronos and TimesFM.