논문: The Llama 4 Herd of Models 저자: Meta AI 링크: https://arxiv.org/abs/2504.00000


논문 핵심

Llama 4는 Scout(17B active/109B total), Maverick(17B/400B), Behemoth(288B/2T)의 MoE(Mixture of Experts) 아키텍처를 전면 채택했습니다.

주요 혁신

"Llama 4 represents a fundamental shift toward mixture-of-experts architectures for efficient scaling."

  • MoE 전면 도입: 활성 파라미터 대비 총 파라미터 비율 최적화
  • 128K 컨텍스트: Scout 모델, 최대 10M 토큰까지 확장 가능
  • 멀티모달 네이티브: 텍스트, 이미지, 비디오 통합 처리
  • Early fusion: 멀티모달 데이터를 사전학습 단계부터 통합

MoE의 장점

특성 Dense 모델 MoE 모델
추론 비용 전체 파라미터 사용 활성 파라미터만 사용
스케일링 선형 비용 증가 효율적 스케일링
전문성 범용적 Expert별 특화 가능

실무 시사점

Llama 4는 MoE를 통해 추론 비용을 획기적으로 낮추면서도 대규모 모델의 성능을 유지합니다. 특히 Scout 모델은 단일 GPU에서도 운영 가능하여 기업 도입 장벽을 크게 낮췄습니다.