Retentive Network: Transformer의 대안

论文：Retentive Network: A Successor to Transformer for Large Language Models 作者：Sun et al. (Microsoft Research) 链接：https://arxiv.org/abs/2307.08621

论文核心

RetNet是一种新的序列建模架构，旨在同时解决Transformer的三个局限性。

“RetNet achieves training parallelism, low-cost inference, and good performance simultaneously.”

属性	Transformer	Linear Attention	RetNet
训练并行性	O	X	O
O(1) 推理	X	O	O
良好性能	O	X	O

Multi-Scale Retention可以通过三种形式计算：

RetNet是否会完全取代Transformer尚不确定，但它表明了“Attention不是唯一的答案”这一研究方向。与Mamba(SSM)一起成为后Transformer架构竞争的一部分。