Mixtral 8x7B: MoE로 소형 모델의 한계를 넘다

论文: Mixtral of Experts 作者: Jiang et al. (Mistral AI) 链接: https://arxiv.org/abs/2401.04088

论文核心

Mixtral 8x7B是一个在每个token中仅激活2个的稀疏MoE架构。总共有47B参数，但推理时仅激活13B。

"Mixtral在大多数基准测试中以6倍更快的推理速度超过了Llama 2 70B。"

将每个Transformer层的FFN替换为8个Expert FFN。路由器为每个token选择最佳的2个Expert。

基准测试	Mixtral 8x7B	Llama 2 70B	GPT-3.5
MMLU	70.6	69.8	70.0
GSM8K	74.4	56.8	57.1
HumanEval	40.2	29.9	48.1

MoE是实现“大型模型性能 + 小型模型成本”的关键技术。据推测，GPT-4也是基于MoE的，随后DBRX、Arctic等许多模型都采用了这种方法。