논문: Claude 3.7 Sonnet System Card 저자: Anthropic 링크: https://www.anthropic.com/news/claude-3-7-sonnet
논문 핵심
Claude 3.7 Sonnet은 Anthropic 최초의 하이브리드 추론 모델로, 일반 응답과 확장된 사고(Extended Thinking)를 하나의 모델에서 모두 지원합니다.
하이브리드 추론이란
"Claude 3.7 Sonnet is the first hybrid reasoning model that can operate in both standard and extended thinking modes."
- 표준 모드: 기존처럼 빠른 응답 (일상 대화, 간단한 질문)
- 확장 사고 모드: 복잡한 문제에 대해 단계별로 깊이 사고 후 답변
- 사용자 선택: API에서
thinking파라미터로 모드 전환
주요 벤치마크
| 벤치마크 | Claude 3.5 Sonnet | Claude 3.7 Sonnet (Extended) |
|---|---|---|
| SWE-bench Verified | 49.0% | 70.3% |
| AIME 2024 (수학) | 16% | 55% |
| TAU-bench Airline | 36% | 54% |
Extended Thinking의 원리
Extended Thinking은 모델이 답변 전에 내부적으로 긴 추론 체인을 생성합니다:
- 문제 분해 → 2. 다양한 접근법 탐색 → 3. 자체 검증 → 4. 최종 답변
이 과정에서 "thinking" 토큰이 소비되며, 사용자는 이 사고 과정을 볼 수 있습니다.
실무 시사점
Claude 3.7 Sonnet은 하나의 모델로 다양한 난이도의 태스크를 처리할 수 있어, 모델 라우팅의 복잡도를 줄입니다. 코드 생성(SWE-bench +21%p)에서 특히 큰 개선을 보여, AI 코딩 에이전트 구축에 최적의 선택입니다.