논문: Training Compute-Optimal Large Language Models 저자: Hoffmann et al. (DeepMind) 링크: https://arxiv.org/abs/2203.15556
논문 핵심
Chinchilla 논문은 기존의 "모델을 키우면 성능이 좋아진다"는 공식에 도전합니다. 같은 연산 예산이라면, 모델 크기와 학습 데이터를 균형 있게 늘려야 최적이라는 것을 증명합니다.
핵심 발견
"Current large language models are significantly under-trained."
최적 비율: 파라미터 수 N × 약 20 = 학습 토큰 수 D
기존 모델들의 문제:
- Gopher (280B params, 300B tokens): 심하게 under-trained
- GPT-3 (175B params, 300B tokens): under-trained
Chinchilla (70B params, 1.4T tokens): 최적 학습 → Gopher(280B)를 능가!
후속 영향
이 논문은 AI 업계의 방향을 근본적으로 바꿨습니다:
- LLaMA (65B, 1.4T tokens): Chinchilla 법칙 적용
- Mistral 7B: 소형 모델 + 충분한 데이터
- 데이터 품질과 양에 대한 투자 증가
실무 시사점
"더 큰 모델 = 더 좋은 성능"이라는 단순한 공식은 틀렸습니다. 제한된 예산에서 모델 크기와 데이터 양의 균형을 찾는 것이 핵심입니다.