논문: Mixtral of Experts 저자: Jiang et al. (Mistral AI) 링크: https://arxiv.org/abs/2401.04088


논문 핵심

Mixtral 8x7B는 8개의 Expert 중 토큰당 2개만 활성화하는 Sparse MoE 아키텍처입니다. 총 47B 파라미터이지만 추론 시 13B만 활성화됩니다.

아키텍처

"Mixtral outperforms Llama 2 70B on most benchmarks with 6x faster inference."

각 Transformer 레이어의 FFN을 8개의 Expert FFN으로 교체. 라우터가 각 토큰에 대해 최적의 2개 Expert를 선택합니다.

성능 비교

벤치마크 Mixtral 8x7B Llama 2 70B GPT-3.5
MMLU 70.6 69.8 70.0
GSM8K 74.4 56.8 57.1
HumanEval 40.2 29.9 48.1

실무 시사점

MoE는 "큰 모델의 성능 + 작은 모델의 비용"을 실현하는 핵심 기술입니다. GPT-4도 MoE 기반으로 추정되며, 이후 DBRX, Arctic 등 많은 모델이 이 접근법을 채택하고 있습니다.