논문: Retentive Network: A Successor to Transformer for Large Language Models 저자: Sun et al. (Microsoft Research) 링크: https://arxiv.org/abs/2307.08621


논문 핵심

RetNet은 Transformer의 세 가지 한계를 동시에 해결하려는 새로운 시퀀스 모델링 아키텍처입니다.

"불가능한 삼각형" 해결

"RetNet achieves training parallelism, low-cost inference, and good performance simultaneously."

속성 Transformer Linear Attention RetNet
학습 병렬성 O X O
O(1) 추론 X O O
좋은 성능 O X O

핵심 메커니즘 — Retention

Multi-Scale Retention은 세 가지 형태로 계산 가능:

  1. Parallel: 학습 시 — Transformer처럼 병렬 처리
  2. Recurrent: 추론 시 — RNN처럼 O(1) 메모리로 순차 처리
  3. Chunkwise: 하이브리드 — 긴 시퀀스를 청크로 나누어 처리

실무 시사점

RetNet이 Transformer를 완전히 대체할지는 아직 불확실하지만, "Attention이 유일한 답은 아니다"라는 연구 방향을 보여줍니다. Mamba(SSM)와 함께 post-Transformer 아키텍처 경쟁의 일부입니다.