论文:ChatGPT:优化对话的语言模型(OpenAI博客+InstructGPT) 作者:OpenAI 链接https://openai.com/blog/chatgpt


ChatGPT 技术深度分析

2022年11月30日发布的ChatGPT在技术上是InstructGPT的扩展版。GPT-3.5通过RLHF优化用于对话。

训练流水线

ChatGPT = GPT-3.5 + SFT + Reward Model + PPO

第1阶段 — SFT(监督微调) 使用人类训练师编写的高质量对话数据进行微调。

第2阶段 — 奖励模型 人类对同一提示的多个响应进行排序,并以此构建一个学习的奖励模型。

第3阶段 — PPO(近端策略优化) 使用奖励模型通过强化学习优化策略。

GPT-3 与 ChatGPT

差异 GPT-3 ChatGPT
对话能力 有限 自然的多轮对话
指令执行
安全性 改善
拒绝能力 拒绝有害请求

实务启示

ChatGPT的成功证明了“对齐(alignment)比模型大小更重要”。企业在引入LLM时,选择与用户意图对齐的模型比单纯追求性能更为关键。