논문: Scaling Data-Constrained Language Models 저자: Muennighoff et al. 링크: https://arxiv.org/abs/2305.16264
논문 핵심
대부분의 Scaling Law 연구가 "데이터는 충분하다"고 가정하지만, 실제로는 고품질 데이터가 제한적입니다. 이 논문은 데이터 제약 상황에서의 최적 스케일링 전략을 분석합니다.
핵심 질문
"데이터가 제한적일 때 가장 좋은 스케일링 방법은 무엇인가?"
같은 데이터를 반복 학습(epoch > 1)하면:
- 4 에폭까지: 성능 감소가 미미
- 4 에폭 이후: 수확 체감이 급격히 증가
주요 발견
- 데이터 반복 vs 모델 확대: 데이터가 부족하면 모델을 키우기보다 데이터를 반복하는 것이 효율적 (특정 범위까지)
- 코드 데이터 혼합: 자연어 데이터가 부족할 때 코드 데이터를 혼합하면 성능 향상
- 데이터 필터링: 양보다 질이 중요 — 중복 제거와 품질 필터링이 핵심
실무 시사점
한국어 같은 중소 언어에서 특히 중요한 논문입니다. 고품질 한국어 데이터가 제한적인 상황에서, 데이터를 어떻게 효율적으로 활용할지에 대한 가이드를 제공합니다.