ChatGPT의 기반 기술: InstructGPT + RLHF 심화 분석

논문: ChatGPT: Optimizing Language Models for Dialogue (OpenAI Blog + InstructGPT) 저자: OpenAI 링크: https://openai.com/blog/chatgpt

ChatGPT 기술 심층 분석

2022년 11월 30일 출시된 ChatGPT는 기술적으로 InstructGPT의 확장판입니다. GPT-3.5를 RLHF로 대화에 최적화했습니다.

ChatGPT = GPT-3.5 + SFT + Reward Model + PPO

1단계 — SFT (Supervised Fine-Tuning) 인간 트레이너가 작성한 고품질 대화 데이터로 fine-tuning합니다.

2단계 — Reward Model 같은 프롬프트에 대한 여러 응답을 인간이 순위를 매기고, 이를 학습한 보상 모델을 구축합니다.

3단계 — PPO (Proximal Policy Optimization) 보상 모델을 사용하여 강화학습으로 정책을 최적화합니다.

ChatGPT의 성공은 "모델 크기보다 정렬(alignment)이 중요"하다는 것을 입증했습니다. 기업이 LLM을 도입할 때도, 단순한 성능보다 사용자 의도에 맞게 정렬된 모델을 선택하는 것이 핵심입니다.