论文:Retentive Network: A Successor to Transformer for Large Language Models 作者:Sun et al. (Microsoft Research) 链接:https://arxiv.org/abs/2307.08621
论文核心
RetNet是一种新的序列建模架构,旨在同时解决Transformer的三个局限性。
解决“不可能的三角形”
“RetNet achieves training parallelism, low-cost inference, and good performance simultaneously.”
| 属性 | Transformer | Linear Attention | RetNet |
|---|---|---|---|
| 训练并行性 | O | X | O |
| O(1) 推理 | X | O | O |
| 良好性能 | O | X | O |
核心机制 — Retention
Multi-Scale Retention可以通过三种形式计算:
- Parallel:训练时 — 像Transformer一样并行处理
- Recurrent:推理时 — 像RNN一样用O(1)内存顺序处理
- Chunkwise:混合 — 将长序列分块处理
实际意义
RetNet是否会完全取代Transformer尚不确定,但它表明了“Attention不是唯一的答案”这一研究方向。与Mamba(SSM)一起成为后Transformer架构竞争的一部分。