論文: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 著者: Zhihong Shao, Peiyi Wang, Qihao Zhu, et al. リンク: https://arxiv.org/abs/2402.03300


論文の要点

GRPO(Group Relative Policy Optimization)は、DeepSeekによって提案された強化学習アルゴリズムであり、別のCriticモデルなしで LLMの推論能力を強化します。

PPO vs GRPO

"GRPOはグループスコアからの基準値を推定することで、別のクリティックモデルの必要性を排除します。"

特性 PPO GRPO
Criticモデル 必要 (Actorと同じサイズ) 不要
メモリ使用 高い 低い
Baseline推定 Value function グループ内の相対比較
実装の複雑さ 高い 低い

GRPOの動作方式

  1. 一つの質問に対してG個の回答をサンプリング (グループ)
  2. 各回答に報酬スコアを与える (正解かどうかなど)
  3. グループ平均を基準値として相対スコアを計算
  4. 相対スコアが高い回答の確率を高める方向で学習

DeepSeek R1での活用

DeepSeek R1はGRPOを使用して、純粋なRLのみで Chain-of-Thought推論能力を発揮しました。SFT(Supervised Fine-Tuning)なしでもモデルが自ら「考える方法」を学習したことが重要な発見です。

実務上の示唆

GRPOは、資源が限られた環境でRLベースのモデル改善を可能にします。Criticモデルが不要なため、メモリ要求が半分以下に減少し、中小規模のチームでもRLファインチューニングに挑戦できます。