GPT-2에서 GPT-3로: OpenAI의 언어 모델 진화

GPT 시리즈의 진화: 규모의 법칙

OpenAI의 GPT 시리즈는 "Scaling Law"의 힘을 증명하고 있습니다. GPT-1(1.17억 파라미터)에서 GPT-2(15억)로, 그리고 곧 발표될 GPT-3는 더욱 거대할 것으로 예상됩니다.

GPT-2가 2019년에 보여준 텍스트 생성 능력은 당시 "너무 위험하다"는 이유로 모델 공개가 지연되었을 만큼 충격적이었습니다.

GPT-1: 117M params → 특정 태스크 fine-tuning 필요
GPT-2: 1.5B params → Zero-shot 능력 발현
GPT-3: ???B params → 더 강력한 Few-shot 학습 예상

Kaplan et al.의 연구에 따르면, 모델 크기·데이터·연산량을 동시에 키우면 성능이 power law로 향상됩니다. 이는 "더 크면 더 좋다"는 단순한 원칙이 놀라울 정도로 잘 작동한다는 것을 보여줍니다.

이 원칙이 어디까지 유효할지는 앞으로의 연구가 밝혀야 할 과제입니다.