論文: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 著者: Zhihong Shao, Peiyi Wang, Qihao Zhu, et al. リンク: https://arxiv.org/abs/2402.03300
論文の要点
GRPO(Group Relative Policy Optimization)は、DeepSeekによって提案された強化学習アルゴリズムであり、別のCriticモデルなしで LLMの推論能力を強化します。
PPO vs GRPO
"GRPOはグループスコアからの基準値を推定することで、別のクリティックモデルの必要性を排除します。"
| 特性 | PPO | GRPO |
|---|---|---|
| Criticモデル | 必要 (Actorと同じサイズ) | 不要 |
| メモリ使用 | 高い | 低い |
| Baseline推定 | Value function | グループ内の相対比較 |
| 実装の複雑さ | 高い | 低い |
GRPOの動作方式
- 一つの質問に対してG個の回答をサンプリング (グループ)
- 各回答に報酬スコアを与える (正解かどうかなど)
- グループ平均を基準値として相対スコアを計算
- 相対スコアが高い回答の確率を高める方向で学習
DeepSeek R1での活用
DeepSeek R1はGRPOを使用して、純粋なRLのみで Chain-of-Thought推論能力を発揮しました。SFT(Supervised Fine-Tuning)なしでもモデルが自ら「考える方法」を学習したことが重要な発見です。
実務上の示唆
GRPOは、資源が限られた環境でRLベースのモデル改善を可能にします。Criticモデルが不要なため、メモリ要求が半分以下に減少し、中小規模のチームでもRLファインチューニングに挑戦できます。