论文: Mixtral of Experts 作者: Jiang et al. (Mistral AI) 链接: https://arxiv.org/abs/2401.04088


论文核心

Mixtral 8x7B是一个在每个token中仅激活2个的稀疏MoE架构。总共有47B参数,但推理时仅激活13B

架构

"Mixtral在大多数基准测试中以6倍更快的推理速度超过了Llama 2 70B。"

将每个Transformer层的FFN替换为8个Expert FFN。路由器为每个token选择最佳的2个Expert。

性能比较

基准测试 Mixtral 8x7B Llama 2 70B GPT-3.5
MMLU 70.6 69.8 70.0
GSM8K 74.4 56.8 57.1
HumanEval 40.2 29.9 48.1

实务启示

MoE是实现“大型模型性能 + 小型模型成本”的关键技术。据推测,GPT-4也是基于MoE的,随后DBRX、Arctic等许多模型都采用了这种方法。