GRPO와 강화학습 기반 LLM 추론 능력 향상

論文: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 著者: Zhihong Shao, Peiyi Wang, Qihao Zhu, et al. リンク: https://arxiv.org/abs/2402.03300

論文の要点

GRPO(Group Relative Policy Optimization)は、DeepSeekによって提案された強化学習アルゴリズムであり、別のCriticモデルなしで LLMの推論能力を強化します。

PPO vs GRPO

"GRPOはグループスコアからの基準値を推定することで、別のクリティックモデルの必要性を排除します。"

特性	PPO	GRPO
Criticモデル	必要 (Actorと同じサイズ)	不要
メモリ使用	高い	低い
Baseline推定	Value function	グループ内の相対比較
実装の複雑さ	高い	低い

GRPOの動作方式

一つの質問に対してG個の回答をサンプリング (グループ)
各回答に報酬スコアを与える (正解かどうかなど)
グループ平均を基準値として相対スコアを計算
相対スコアが高い回答の確率を高める方向で学習

DeepSeek R1での活用

DeepSeek R1はGRPOを使用して、純粋なRLのみで Chain-of-Thought推論能力を発揮しました。SFT(Supervised Fine-Tuning)なしでもモデルが自ら「考える方法」を学習したことが重要な発見です。

実務上の示唆

GRPOは、資源が限られた環境でRLベースのモデル改善を可能にします。Criticモデルが不要なため、メモリ要求が半分以下に減少し、中小規模のチームでもRLファインチューニングに挑戦できます。