논문: Retentive Network: A Successor to Transformer for Large Language Models 저자: Sun et al. (Microsoft Research) 링크: https://arxiv.org/abs/2307.08621
논문 핵심
RetNet은 Transformer의 세 가지 한계를 동시에 해결하려는 새로운 시퀀스 모델링 아키텍처입니다.
"불가능한 삼각형" 해결
"RetNet achieves training parallelism, low-cost inference, and good performance simultaneously."
| 속성 | Transformer | Linear Attention | RetNet |
|---|---|---|---|
| 학습 병렬성 | O | X | O |
| O(1) 추론 | X | O | O |
| 좋은 성능 | O | X | O |
핵심 메커니즘 — Retention
Multi-Scale Retention은 세 가지 형태로 계산 가능:
- Parallel: 학습 시 — Transformer처럼 병렬 처리
- Recurrent: 추론 시 — RNN처럼 O(1) 메모리로 순차 처리
- Chunkwise: 하이브리드 — 긴 시퀀스를 청크로 나누어 처리
실무 시사점
RetNet이 Transformer를 완전히 대체할지는 아직 불확실하지만, "Attention이 유일한 답은 아니다"라는 연구 방향을 보여줍니다. Mamba(SSM)와 함께 post-Transformer 아키텍처 경쟁의 일부입니다.