论文: Mixtral of Experts 作者: Jiang et al. (Mistral AI) 链接: https://arxiv.org/abs/2401.04088
论文核心
Mixtral 8x7B是一个在每个token中仅激活2个的稀疏MoE架构。总共有47B参数,但推理时仅激活13B。
架构
"Mixtral在大多数基准测试中以6倍更快的推理速度超过了Llama 2 70B。"
将每个Transformer层的FFN替换为8个Expert FFN。路由器为每个token选择最佳的2个Expert。
性能比较
| 基准测试 | Mixtral 8x7B | Llama 2 70B | GPT-3.5 |
|---|---|---|---|
| MMLU | 70.6 | 69.8 | 70.0 |
| GSM8K | 74.4 | 56.8 | 57.1 |
| HumanEval | 40.2 | 29.9 | 48.1 |
实务启示
MoE是实现“大型模型性能 + 小型模型成本”的关键技术。据推测,GPT-4也是基于MoE的,随后DBRX、Arctic等许多模型都采用了这种方法。