论文: Mamba: Linear-Time Sequence Modeling with Selective State Spaces 作者: Gu & Dao (Carnegie Mellon, Princeton) 链接: https://arxiv.org/abs/2312.00752
论文核心
Mamba通过在State Space Model(SSM)中引入选择性机制,以O(n)复杂度实现了与Transformer竞争的性能。
核心创新 — Selective SSM
"Mamba是一种新型基础模型,具有线性扩展能力,实现了与Transformer相当的性能。"
现有SSM的局限:无论输入如何,以相同的权重处理序列 → 缺乏内容感知 Mamba的解决方案:根据输入动态改变SSM的参数(B, C, Δ) → 选择性地保留/删除信息
性能
-
语言建模: 超过相同规模的Transformer (验证至多3B参数)
-
DNA建模: 可处理序列长度超过100万的标记
-
音频处理: 在长音频序列中表现优异
-
推理速度: 生成速度比Transformer快5倍
实务启示
Mamba在处理长序列(如DNA、音频、长文档)时受到关注,作为Transformer的替代方案。2024-2025年,正在发展Mamba-2,Jamba(Mamba+Transformer混合)等。