Retentive Network: Transformer의 대안

Parallel: 학습 시 — Transformer처럼 병렬 처리
Recurrent: 추론 시 — RNN처럼 O(1) 메모리로 순차 처리
Chunkwise: 하이브리드 — 긴 시퀀스를 청크로 나누어 처리

논문: Retentive Network: A Successor to Transformer for Large Language Models 저자: Sun et al. (Microsoft Research) 링크: https://arxiv.org/abs/2307.08621

논문 핵심

RetNet은 Transformer의 세 가지 한계를 동시에 해결하려는 새로운 시퀀스 모델링 아키텍처입니다.

"RetNet achieves training parallelism, low-cost inference, and good performance simultaneously."

속성	Transformer	Linear Attention	RetNet
학습 병렬성	O	X	O
O(1) 추론	X	O	O
좋은 성능	O	X	O

Multi-Scale Retention은 세 가지 형태로 계산 가능:

RetNet이 Transformer를 완전히 대체할지는 아직 불확실하지만, "Attention이 유일한 답은 아니다"라는 연구 방향을 보여줍니다. Mamba(SSM)와 함께 post-Transformer 아키텍처 경쟁의 일부입니다.