ChatGPT의 기반 기술: InstructGPT + RLHF 심화 분석

论文：ChatGPT：优化对话的语言模型（OpenAI博客+InstructGPT）作者：OpenAI 链接：https://openai.com/blog/chatgpt

ChatGPT 技术深度分析

2022年11月30日发布的ChatGPT在技术上是InstructGPT的扩展版。GPT-3.5通过RLHF优化用于对话。

ChatGPT = GPT-3.5 + SFT + Reward Model + PPO

第1阶段 — SFT（监督微调） 使用人类训练师编写的高质量对话数据进行微调。

第2阶段 — 奖励模型 人类对同一提示的多个响应进行排序，并以此构建一个学习的奖励模型。

第3阶段 — PPO（近端策略优化） 使用奖励模型通过强化学习优化策略。

ChatGPT的成功证明了“对齐（alignment）比模型大小更重要”。企业在引入LLM时，选择与用户意图对齐的模型比单纯追求性能更为关键。