논문: Mixtral of Experts 저자: Jiang et al. (Mistral AI) 링크: https://arxiv.org/abs/2401.04088
논문 핵심
Mixtral 8x7B는 8개의 Expert 중 토큰당 2개만 활성화하는 Sparse MoE 아키텍처입니다. 총 47B 파라미터이지만 추론 시 13B만 활성화됩니다.
아키텍처
"Mixtral outperforms Llama 2 70B on most benchmarks with 6x faster inference."
각 Transformer 레이어의 FFN을 8개의 Expert FFN으로 교체. 라우터가 각 토큰에 대해 최적의 2개 Expert를 선택합니다.
성능 비교
| 벤치마크 | Mixtral 8x7B | Llama 2 70B | GPT-3.5 |
|---|---|---|---|
| MMLU | 70.6 | 69.8 | 70.0 |
| GSM8K | 74.4 | 56.8 | 57.1 |
| HumanEval | 40.2 | 29.9 | 48.1 |
실무 시사점
MoE는 "큰 모델의 성능 + 작은 모델의 비용"을 실현하는 핵심 기술입니다. GPT-4도 MoE 기반으로 추정되며, 이후 DBRX, Arctic 등 많은 모델이 이 접근법을 채택하고 있습니다.