论文:Retentive Network: A Successor to Transformer for Large Language Models 作者:Sun et al. (Microsoft Research) 链接https://arxiv.org/abs/2307.08621


论文核心

RetNet是一种新的序列建模架构,旨在同时解决Transformer的三个局限性。

解决“不可能的三角形”

“RetNet achieves training parallelism, low-cost inference, and good performance simultaneously.”

属性 Transformer Linear Attention RetNet
训练并行性 O X O
O(1) 推理 X O O
良好性能 O X O

核心机制 — Retention

Multi-Scale Retention可以通过三种形式计算:

  1. Parallel:训练时 — 像Transformer一样并行处理
  2. Recurrent:推理时 — 像RNN一样用O(1)内存顺序处理
  3. Chunkwise:混合 — 将长序列分块处理

实际意义

RetNet是否会完全取代Transformer尚不确定,但它表明了“Attention不是唯一的答案”这一研究方向。与Mamba(SSM)一起成为后Transformer架构竞争的一部分。