Chinchilla: Scaling Law를 재정의하다

논문: Training Compute-Optimal Large Language Models 저자: Hoffmann et al. (DeepMind) 링크: https://arxiv.org/abs/2203.15556

논문 핵심

Chinchilla 논문은 기존의 "모델을 키우면 성능이 좋아진다"는 공식에 도전합니다. 같은 연산 예산이라면, 모델 크기와 학습 데이터를 균형 있게 늘려야 최적이라는 것을 증명합니다.

"Current large language models are significantly under-trained."

최적 비율: 파라미터 수 N × 약 20 = 학습 토큰 수 D

기존 모델들의 문제:

Chinchilla (70B params, 1.4T tokens): 최적 학습 → Gopher(280B)를 능가!

이 논문은 AI 업계의 방향을 근본적으로 바꿨습니다:

"더 큰 모델 = 더 좋은 성능"이라는 단순한 공식은 틀렸습니다. 제한된 예산에서 모델 크기와 데이터 양의 균형을 찾는 것이 핵심입니다.