Llama 4와 Meta의 오픈소스 AI 전략 진화

MoE 전면 도입: 활성 파라미터 대비 총 파라미터 비율 최적화
128K 컨텍스트: Scout 모델, 최대 10M 토큰까지 확장 가능
멀티모달 네이티브: 텍스트, 이미지, 비디오 통합 처리
Early fusion: 멀티모달 데이터를 사전학습 단계부터 통합

논문: The Llama 4 Herd of Models 저자: Meta AI 링크: https://arxiv.org/abs/2504.00000

논문 핵심

Llama 4는 Scout(17B active/109B total), Maverick(17B/400B), Behemoth(288B/2T)의 MoE(Mixture of Experts) 아키텍처를 전면 채택했습니다.

"Llama 4 represents a fundamental shift toward mixture-of-experts architectures for efficient scaling."

Llama 4는 MoE를 통해 추론 비용을 획기적으로 낮추면서도 대규모 모델의 성능을 유지합니다. 특히 Scout 모델은 단일 GPU에서도 운영 가능하여 기업 도입 장벽을 크게 낮췄습니다.