介绍论文:https ://arxiv.org/abs/2312.00752 发布日期:2023 年 12 月 作者:Albert Gu 和 Tri Dao - 卡耐基梅隆大学和普林斯顿大学 Mamba 的吞吐量比 Transformer 快5 倍,并且随序列长度线性扩展,而不是二次扩展。 其性能显示出对长达百万长度序列的数据的承诺。 这对于聊天机器人、摘要和信