논문: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 저자: DeepSeek AI 링크: https://arxiv.org/abs/2501.12948


논문 핵심

DeepSeek R1은 순수 강화학습(RL)만으로도 LLM에 추론 능력을 부여할 수 있음을 보여주었습니다.

두 가지 모델

"DeepSeek-R1-Zero emerges reasoning capabilities purely through RL without supervised fine-tuning."

  1. R1-Zero: SFT 없이 순수 RL만으로 추론 능력 획득. "아하 모먼트"를 스스로 발견
  2. R1: R1-Zero의 발견을 바탕으로 SFT + RL을 결합하여 완성도 높인 버전

핵심 결과

벤치마크 DeepSeek R1 OpenAI o1
AIME 2024 79.8% 79.2%
Codeforces 96.3% 96.6%
GPQA Diamond 71.5% 75.7%

증류 모델

R1의 추론 능력을 작은 모델로 증류:

  • 1.5B, 7B, 8B, 14B, 32B, 70B 크기 공개
  • 14B 증류 모델이 o1-mini와 경쟁하는 수준

실무 시사점

R1의 증류 모델들은 추론이 필요한 태스크에서 비용 효율적인 선택지입니다. 특히 R1-Distill-32B는 추론 성능과 비용의 균형이 뛰어나 실무에서 활용도가 높습니다.