GRPO와 강화학습 기반 LLM 추론 능력 향상
DeepSeek에서 제안한 GRPO 알고리즘과 RL 기반 LLM 추론 훈련의 최신 동향을 분석합니다.
· 8분
DeepSeek R1: 중국 AI의 도전
중국의 DeepSeek이 R1 모델을 공개하며 오픈소스 추론 AI 분야에서 주목을 받고 있습니다.
· 4분
DeepSeek R1: 효율적 추론 모델의 오픈소스 혁명
DeepSeek R1은 o1에 필적하는 추론 능력을 오픈소스로 제공하며, 효율적 학습 기법이 핵심입니다.
· 5분