Mixtral 8x7B: MoE로 소형 모델의 한계를 넘다

논문: Mixtral of Experts 저자: Jiang et al. (Mistral AI) 링크: https://arxiv.org/abs/2401.04088

논문 핵심

Mixtral 8x7B는 8개의 Expert 중 토큰당 2개만 활성화하는 Sparse MoE 아키텍처입니다. 총 47B 파라미터이지만 추론 시 13B만 활성화됩니다.

"Mixtral outperforms Llama 2 70B on most benchmarks with 6x faster inference."

각 Transformer 레이어의 FFN을 8개의 Expert FFN으로 교체. 라우터가 각 토큰에 대해 최적의 2개 Expert를 선택합니다.

벤치마크	Mixtral 8x7B	Llama 2 70B	GPT-3.5
MMLU	70.6	69.8	70.0
GSM8K	74.4	56.8	57.1
HumanEval	40.2	29.9	48.1

MoE는 "큰 모델의 성능 + 작은 모델의 비용"을 실현하는 핵심 기술입니다. GPT-4도 MoE 기반으로 추정되며, 이후 DBRX, Arctic 등 많은 모델이 이 접근법을 채택하고 있습니다.