论文:ChatGPT:优化对话的语言模型(OpenAI博客+InstructGPT) 作者:OpenAI 链接:https://openai.com/blog/chatgpt
ChatGPT 技术深度分析
2022年11月30日发布的ChatGPT在技术上是InstructGPT的扩展版。GPT-3.5通过RLHF优化用于对话。
训练流水线
ChatGPT = GPT-3.5 + SFT + Reward Model + PPO
第1阶段 — SFT(监督微调) 使用人类训练师编写的高质量对话数据进行微调。
第2阶段 — 奖励模型 人类对同一提示的多个响应进行排序,并以此构建一个学习的奖励模型。
第3阶段 — PPO(近端策略优化) 使用奖励模型通过强化学习优化策略。
GPT-3 与 ChatGPT
| 差异 | GPT-3 | ChatGPT |
|---|---|---|
| 对话能力 | 有限 | 自然的多轮对话 |
| 指令执行 | 弱 | 强 |
| 安全性 | 低 | 改善 |
| 拒绝能力 | 无 | 拒绝有害请求 |
实务启示
ChatGPT的成功证明了“对齐(alignment)比模型大小更重要”。企业在引入LLM时,选择与用户意图对齐的模型比单纯追求性能更为关键。