논문: ChatGPT: Optimizing Language Models for Dialogue (OpenAI Blog + InstructGPT) 저자: OpenAI 링크: https://openai.com/blog/chatgpt


ChatGPT 기술 심층 분석

2022년 11월 30일 출시된 ChatGPT는 기술적으로 InstructGPT의 확장판입니다. GPT-3.5를 RLHF로 대화에 최적화했습니다.

학습 파이프라인

ChatGPT = GPT-3.5 + SFT + Reward Model + PPO

1단계 — SFT (Supervised Fine-Tuning) 인간 트레이너가 작성한 고품질 대화 데이터로 fine-tuning합니다.

2단계 — Reward Model 같은 프롬프트에 대한 여러 응답을 인간이 순위를 매기고, 이를 학습한 보상 모델을 구축합니다.

3단계 — PPO (Proximal Policy Optimization) 보상 모델을 사용하여 강화학습으로 정책을 최적화합니다.

GPT-3 vs ChatGPT

차이점 GPT-3 ChatGPT
대화 능력 제한적 자연스러운 멀티턴
지시 이행 약함 강함
안전성 낮음 개선됨
거절 능력 없음 유해 요청 거절

실무 시사점

ChatGPT의 성공은 "모델 크기보다 정렬(alignment)이 중요"하다는 것을 입증했습니다. 기업이 LLM을 도입할 때도, 단순한 성능보다 사용자 의도에 맞게 정렬된 모델을 선택하는 것이 핵심입니다.