논문: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 저자: Zhihong Shao, Peiyi Wang, Qihao Zhu, et al. 링크: https://arxiv.org/abs/2402.03300


논문 핵심

GRPO(Group Relative Policy Optimization)는 DeepSeek이 제안한 강화학습 알고리즘으로, 별도의 Critic 모델 없이 LLM의 추론 능력을 강화합니다.

PPO vs GRPO

"GRPO eliminates the need for a separate critic model by estimating baselines from group scores."

특성 PPO GRPO
Critic 모델 필요 (Actor와 동일 크기) 불필요
메모리 사용 높음 낮음
Baseline 추정 Value function 그룹 내 상대 비교
구현 복잡도 높음 낮음

GRPO 작동 방식

  1. 질문 하나에 대해 G개의 답변을 샘플링 (그룹)
  2. 각 답변에 보상 점수 부여 (정답 여부 등)
  3. 그룹 평균을 baseline으로 상대 점수 계산
  4. 상대 점수가 높은 답변의 확률을 높이는 방향으로 학습

DeepSeek R1에서의 활용

DeepSeek R1은 GRPO를 사용하여 순수 RL만으로 Chain-of-Thought 추론 능력을 발현시켰습니다. SFT(Supervised Fine-Tuning) 없이도 모델이 스스로 "생각하는 방법"을 학습한 것이 핵심 발견입니다.

실무 시사점

GRPO는 자원이 제한된 환경에서 RL 기반 모델 개선을 가능하게 합니다. Critic 모델이 불필요하므로 메모리 요구사항이 절반 이하로 줄어들어, 중소규모 팀도 RL 파인튜닝에 도전할 수 있습니다.