Chinchilla: Scaling Law의 재발견
2022년 3월, DeepMind이 발표한 Chinchilla 논문은 대규모 언어 모델의 최적 학습 전략을 재정의했습니다.
기존 상식의 전복
GPT-3 이후, AI 업계는 "모델을 크게 만들수록 좋다"는 공식을 따랐습니다. 하지만 Chinchilla 연구는 데이터 양도 동등하게 중요하다는 것을 증명했습니다.
핵심 발견
700억 파라미터의 Chinchilla가 2,800억 파라미터의 Gopher를 능가했습니다. 비결은 4배 많은 학습 데이터였습니다.
최적 비율: 파라미터 수 × 20 = 학습 토큰 수
Gopher: 280B params, 300B tokens → 과소학습(under-trained)
Chinchilla: 70B params, 1.4T tokens → 최적 학습
산업에 미친 영향
이 발견은 이후 LLaMA, Mistral 등 효율적인 소형 모델 개발의 이론적 근거가 되었습니다. "무조건 크게"가 아니라 "똑똑하게 학습"하는 패러다임 전환의 시작입니다.