논문: Language Models are Few-Shot Learners 저자: Brown et al. (OpenAI) 링크: https://arxiv.org/abs/2005.14165


논문 핵심

GPT-3는 1,750억 개 파라미터의 언어 모델로, fine-tuning 없이 프롬프트에 몇 가지 예시만 제공하면 다양한 태스크를 수행할 수 있음을 보여주었습니다.

In-Context Learning

"We show that scaling up language models greatly improves task-agnostic, few-shot performance."

세 가지 학습 방식:

  • Zero-shot: 태스크 설명만 제공
  • One-shot: 예시 1개 + 태스크 설명
  • Few-shot: 예시 수개 + 태스크 설명

별도의 gradient update 없이, 프롬프트 안의 예시만으로 모델이 태스크를 이해합니다.

주요 결과

  • 번역, 질문답변, 산술 등 수십 개 벤치마크에서 fine-tuning 모델에 근접
  • SuperGLUE: few-shot으로 fine-tuned BERT에 근접
  • 코드 생성, 기사 작성 등 창의적 태스크도 가능

실무 시사점

GPT-3는 "프롬프트 엔지니어링"이라는 새로운 패러다임을 열었습니다. 모델을 학습시키는 대신, 적절한 프롬프트를 설계하는 것이 핵심 역량이 되었습니다. 이는 AI 도입의 진입 장벽을 크게 낮추었습니다.