논문: The Llama 4 Herd of Models 저자: Meta AI 링크: https://arxiv.org/abs/2504.00000
논문 핵심
Llama 4는 Scout(17B active/109B total), Maverick(17B/400B), Behemoth(288B/2T)의 MoE(Mixture of Experts) 아키텍처를 전면 채택했습니다.
주요 혁신
"Llama 4 represents a fundamental shift toward mixture-of-experts architectures for efficient scaling."
- MoE 전면 도입: 활성 파라미터 대비 총 파라미터 비율 최적화
- 128K 컨텍스트: Scout 모델, 최대 10M 토큰까지 확장 가능
- 멀티모달 네이티브: 텍스트, 이미지, 비디오 통합 처리
- Early fusion: 멀티모달 데이터를 사전학습 단계부터 통합
MoE의 장점
| 특성 | Dense 모델 | MoE 모델 |
|---|---|---|
| 추론 비용 | 전체 파라미터 사용 | 활성 파라미터만 사용 |
| 스케일링 | 선형 비용 증가 | 효율적 스케일링 |
| 전문성 | 범용적 | Expert별 특화 가능 |
실무 시사점
Llama 4는 MoE를 통해 추론 비용을 획기적으로 낮추면서도 대규모 모델의 성능을 유지합니다. 특히 Scout 모델은 단일 GPU에서도 운영 가능하여 기업 도입 장벽을 크게 낮췄습니다.