作为状态空间模型(State Space Model,SSM)基线的 CodestralMamba 和 FalconMamba,以及作为额外循环神经网络(Recurrent Neural Network,RNN)基线的 RWKV-5/6。
研究者增加了训练数据量,对来自 SlimPajama 的 300B 个 token 进行了训练,并比较了 xLSTM、RWKV-4、Llama 和 Mamba。他们训练了不同大小的模型(125M、350M、760M 和 1.3B),进行了深入的评估。首先,评估这些方法在推断较长语境时的表现;其次,通过验证易混度和下游任务的表现来测试这些方法;此外,在 PALOMA 语...
魔芯科技联合多单位推出 近年来,Mamba作为一种处理长距离依赖关系的计算模块,在医学图像分割领域取得了显著进展。而近期,来自浙江大学,魔芯科技,中科大等单位的研究人员将Mamba替换为xLSTM,提出 xLSTM-UNet(xLSTM-UNet can be an Effective 2D \& 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) be...
而近期,来自浙江大学,魔芯科技,中科大等单位的研究人员将Mamba替换为xLSTM,提出 xLSTM-UNet(xLSTM-UNet can be an Effective 2D \& 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart),...
最新开源成果连超Transformer和Mamba,依然是发论文好选择 LSTM最近真是赚足了眼球,前有大幅领先Transformer和Mamba的xLSTM,后有视觉领域新宠Vision-LSTM,这俩都出自原作者之手,实力上演现实版“重生之夺回一切”。 自从它们火了之后,这类LSTM改进变体也成了论文界香饽饽,相关研究数目繁多,也给我们处理序列数据提供了...
近年来,Mamba作为一种处理长距离依赖关系的计算模块,在医学图像分割领域取得了显著进展。而近期,来自浙江大学,魔芯科技,中科大等单位的研究人员将Mamba替换为xLSTM,提出 xLSTM-UNet(xLSTM-UNet can be an Effective 2D \& 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Co...
研究表明,xLSTM 7B 的文本生成速度比 Mamba 快约 50%,这主要得益于其优化的块设计。即使在预填充长度为 0 的情况下,xLSTM 7B 也比采用类似块设计的基于 Llama 的 Transformer 模型更快。 生成效率与内存消耗分析 研究者测量了不同生成长度下的 token 生成时间和 GPU 内存使用情况(不包括预填充)。图 5(左)...
研究者将 xLSTM 与几种基线模型进行了比较:作为 Transformer 基线的 Llama 2 7B(未进行长文本微调)和 Llama 3.1 8B(已进行长达 131K 词元的长文本微调),作为状态空间模型(State Space Model,SSM)基线的 CodestralMamba 和 FalconMamba,以及作为额外循环神经网络(Recurrent Neural Network,RNN)基线的 RWKV-5/...
研究者将 xLSTM 与几种基线模型进行了比较:作为 Transformer 基线的 Llama 2 7B(未进行长文本微调)和 Llama 3.1 8B(已进行长达 131K 词元的长文本微调),作为状态空间模型(State Space Model,SSM)基线的 CodestralMamba 和 FalconMamba,以及作为额外循环神经网络(Recurrent Neural Network,RNN)基线的 RWKV-5/...
研究者将 xLSTM 与几种基线模型进行了比较:作为 Transformer 基线的 Llama 2 7B(未进行长文本微调)和 Llama 3.1 8B(已进行长达 131K 词元的长文本微调),作为状态空间模型(State Space Model,SSM)基线的 CodestralMamba 和 FalconMamba,以及作为额外循环神经网络(Recurrent Neural Network,RNN)基线的 RWKV-5/...