Chinchilla와 Scaling Law 재정의

Chinchilla: Scaling Law의 재발견

2022년 3월, DeepMind이 발표한 Chinchilla 논문은 대규모 언어 모델의 최적 학습 전략을 재정의했습니다.

GPT-3 이후, AI 업계는 "모델을 크게 만들수록 좋다"는 공식을 따랐습니다. 하지만 Chinchilla 연구는 데이터 양도 동등하게 중요하다는 것을 증명했습니다.

700억 파라미터의 Chinchilla가 2,800억 파라미터의 Gopher를 능가했습니다. 비결은 4배 많은 학습 데이터였습니다.

최적 비율: 파라미터 수 × 20 = 학습 토큰 수

Gopher: 280B params, 300B tokens → 과소학습(under-trained)
Chinchilla: 70B params, 1.4T tokens → 최적 학습

이 발견은 이후 LLaMA, Mistral 등 효율적인 소형 모델 개발의 이론적 근거가 되었습니다. "무조건 크게"가 아니라 "똑똑하게 학습"하는 패러다임 전환의 시작입니다.