Chinchilla 이전의 단서: Scaling의 올바른 방향

4 에폭까지: 성능 감소가 미미
4 에폭 이후: 수확 체감이 급격히 증가

논문: Scaling Data-Constrained Language Models 저자: Muennighoff et al. 링크: https://arxiv.org/abs/2305.16264

논문 핵심

대부분의 Scaling Law 연구가 "데이터는 충분하다"고 가정하지만, 실제로는 고품질 데이터가 제한적입니다. 이 논문은 데이터 제약 상황에서의 최적 스케일링 전략을 분석합니다.

"데이터가 제한적일 때 가장 좋은 스케일링 방법은 무엇인가?"

같은 데이터를 반복 학습(epoch > 1)하면:

한국어 같은 중소 언어에서 특히 중요한 논문입니다. 고품질 한국어 데이터가 제한적인 상황에서, 데이터를 어떻게 효율적으로 활용할지에 대한 가이드를 제공합니다.