논문: ChatGPT: Optimizing Language Models for Dialogue (OpenAI Blog + InstructGPT) 저자: OpenAI 링크: https://openai.com/blog/chatgpt
ChatGPT 기술 심층 분석
2022년 11월 30일 출시된 ChatGPT는 기술적으로 InstructGPT의 확장판입니다. GPT-3.5를 RLHF로 대화에 최적화했습니다.
학습 파이프라인
ChatGPT = GPT-3.5 + SFT + Reward Model + PPO
1단계 — SFT (Supervised Fine-Tuning) 인간 트레이너가 작성한 고품질 대화 데이터로 fine-tuning합니다.
2단계 — Reward Model 같은 프롬프트에 대한 여러 응답을 인간이 순위를 매기고, 이를 학습한 보상 모델을 구축합니다.
3단계 — PPO (Proximal Policy Optimization) 보상 모델을 사용하여 강화학습으로 정책을 최적화합니다.
GPT-3 vs ChatGPT
| 차이점 | GPT-3 | ChatGPT |
|---|---|---|
| 대화 능력 | 제한적 | 자연스러운 멀티턴 |
| 지시 이행 | 약함 | 강함 |
| 안전성 | 낮음 | 개선됨 |
| 거절 능력 | 없음 | 유해 요청 거절 |
실무 시사점
ChatGPT의 성공은 "모델 크기보다 정렬(alignment)이 중요"하다는 것을 입증했습니다. 기업이 LLM을 도입할 때도, 단순한 성능보다 사용자 의도에 맞게 정렬된 모델을 선택하는 것이 핵심입니다.