논문: Language Models are Few-Shot Learners 저자: Brown et al. (OpenAI) 링크: https://arxiv.org/abs/2005.14165
논문 핵심
GPT-3는 1,750억 개 파라미터의 언어 모델로, fine-tuning 없이 프롬프트에 몇 가지 예시만 제공하면 다양한 태스크를 수행할 수 있음을 보여주었습니다.
In-Context Learning
"We show that scaling up language models greatly improves task-agnostic, few-shot performance."
세 가지 학습 방식:
- Zero-shot: 태스크 설명만 제공
- One-shot: 예시 1개 + 태스크 설명
- Few-shot: 예시 수개 + 태스크 설명
별도의 gradient update 없이, 프롬프트 안의 예시만으로 모델이 태스크를 이해합니다.
주요 결과
- 번역, 질문답변, 산술 등 수십 개 벤치마크에서 fine-tuning 모델에 근접
- SuperGLUE: few-shot으로 fine-tuned BERT에 근접
- 코드 생성, 기사 작성 등 창의적 태스크도 가능
실무 시사점
GPT-3는 "프롬프트 엔지니어링"이라는 새로운 패러다임을 열었습니다. 모델을 학습시키는 대신, 적절한 프롬프트를 설계하는 것이 핵심 역량이 되었습니다. 이는 AI 도입의 진입 장벽을 크게 낮추었습니다.