GPT-3: Language Models are Few-Shot Learners

Zero-shot: 태스크 설명만 제공
One-shot: 예시 1개 + 태스크 설명
Few-shot: 예시 수개 + 태스크 설명

논문: Language Models are Few-Shot Learners 저자: Brown et al. (OpenAI) 링크: https://arxiv.org/abs/2005.14165

논문 핵심

GPT-3는 1,750억 개 파라미터의 언어 모델로, fine-tuning 없이 프롬프트에 몇 가지 예시만 제공하면 다양한 태스크를 수행할 수 있음을 보여주었습니다.

"We show that scaling up language models greatly improves task-agnostic, few-shot performance."

세 가지 학습 방식:

별도의 gradient update 없이, 프롬프트 안의 예시만으로 모델이 태스크를 이해합니다.

GPT-3는 "프롬프트 엔지니어링"이라는 새로운 패러다임을 열었습니다. 모델을 학습시키는 대신, 적절한 프롬프트를 설계하는 것이 핵심 역량이 되었습니다. 이는 AI 도입의 진입 장벽을 크게 낮추었습니다.