Mamba: 선형 복잡도의 시퀀스 모델

논문: Mamba: Linear-Time Sequence Modeling with Selective State Spaces 저자: Gu & Dao (Carnegie Mellon, Princeton) 링크: https://arxiv.org/abs/2312.00752

논문 핵심

Mamba는 State Space Model(SSM)에 선택적(Selective) 메커니즘을 도입하여, Transformer와 경쟁하는 성능을 O(n) 복잡도로 달성합니다.

"Mamba is a new class of foundation models that achieves Transformer-quality performance with linear scaling."

기존 SSM의 한계: 입력에 관계없이 동일한 가중치로 시퀀스 처리 → 콘텐츠 인식 부족 Mamba의 해결: SSM의 파라미터(B, C, Δ)를 입력에 따라 동적으로 변경 → 선택적 정보 보존/제거

Mamba는 특히 긴 시퀀스(DNA, 오디오, 긴 문서)에서 Transformer의 대안으로 주목받고 있습니다. 2024-2025년 Mamba-2, Jamba(Mamba+Transformer 하이브리드) 등으로 발전하고 있습니다.