论文: Mamba: Linear-Time Sequence Modeling with Selective State Spaces 作者: Gu & Dao (Carnegie Mellon, Princeton) 链接: https://arxiv.org/abs/2312.00752


论文核心

Mamba通过在State Space Model(SSM)中引入选择性机制,以O(n)复杂度实现了与Transformer竞争的性能。

核心创新 — Selective SSM

"Mamba是一种新型基础模型,具有线性扩展能力,实现了与Transformer相当的性能。"

现有SSM的局限:无论输入如何,以相同的权重处理序列 → 缺乏内容感知 Mamba的解决方案:根据输入动态改变SSM的参数(B, C, Δ) → 选择性地保留/删除信息

性能

  • 语言建模: 超过相同规模的Transformer (验证至多3B参数)

  • DNA建模: 可处理序列长度超过100万的标记

  • 音频处理: 在长音频序列中表现优异

  • 推理速度: 生成速度比Transformer快5倍

实务启示

Mamba在处理长序列(如DNA、音频、长文档)时受到关注,作为Transformer的替代方案。2024-2025年,正在发展Mamba-2,Jamba(Mamba+Transformer混合)等。