논문: Mamba: Linear-Time Sequence Modeling with Selective State Spaces 저자: Gu & Dao (Carnegie Mellon, Princeton) 링크: https://arxiv.org/abs/2312.00752


논문 핵심

Mamba는 State Space Model(SSM)에 선택적(Selective) 메커니즘을 도입하여, Transformer와 경쟁하는 성능을 O(n) 복잡도로 달성합니다.

핵심 혁신 — Selective SSM

"Mamba is a new class of foundation models that achieves Transformer-quality performance with linear scaling."

기존 SSM의 한계: 입력에 관계없이 동일한 가중치로 시퀀스 처리 → 콘텐츠 인식 부족 Mamba의 해결: SSM의 파라미터(B, C, Δ)를 입력에 따라 동적으로 변경 → 선택적 정보 보존/제거

성능

  • 언어 모델링: 같은 크기의 Transformer를 능가 (최대 3B까지 검증)

  • DNA 모델링: 시퀀스 길이 100만+ 토큰 처리 가능

  • 오디오 처리: 긴 오디오 시퀀스에서 우수

  • 추론 속도: Transformer 대비 5배 빠른 생성 속도

실무 시사점

Mamba는 특히 긴 시퀀스(DNA, 오디오, 긴 문서)에서 Transformer의 대안으로 주목받고 있습니다. 2024-2025년 Mamba-2, Jamba(Mamba+Transformer 하이브리드) 등으로 발전하고 있습니다.