논문: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 저자: DeepSeek AI 링크: https://arxiv.org/abs/2501.12948
논문 핵심
DeepSeek R1은 순수 강화학습(RL)만으로도 LLM에 추론 능력을 부여할 수 있음을 보여주었습니다.
두 가지 모델
"DeepSeek-R1-Zero emerges reasoning capabilities purely through RL without supervised fine-tuning."
- R1-Zero: SFT 없이 순수 RL만으로 추론 능력 획득. "아하 모먼트"를 스스로 발견
- R1: R1-Zero의 발견을 바탕으로 SFT + RL을 결합하여 완성도 높인 버전
핵심 결과
| 벤치마크 | DeepSeek R1 | OpenAI o1 |
|---|---|---|
| AIME 2024 | 79.8% | 79.2% |
| Codeforces | 96.3% | 96.6% |
| GPQA Diamond | 71.5% | 75.7% |
증류 모델
R1의 추론 능력을 작은 모델로 증류:
- 1.5B, 7B, 8B, 14B, 32B, 70B 크기 공개
- 14B 증류 모델이 o1-mini와 경쟁하는 수준
실무 시사점
R1의 증류 모델들은 추론이 필요한 태스크에서 비용 효율적인 선택지입니다. 특히 R1-Distill-32B는 추론 성능과 비용의 균형이 뛰어나 실무에서 활용도가 높습니다.