논문: Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters 저자: Snell et al. (UC Berkeley, Google DeepMind) 링크: https://arxiv.org/abs/2408.03314


논문 핵심

이 논문은 모델 학습 시 연산(Train-Time Compute)뿐만 아니라, 추론 시 연산(Test-Time Compute)도 스케일링하면 성능이 향상됨을 보여줍니다.

핵심 발견

"많은 상황에서, 추론 시 연산 스케일링이 모델 파라미터 스케일링보다 더 효과적일 수 있습니다."

  • 작은 모델 + 많은 추론 연산 > 큰 모델 + 적은 추론 연산
  • 특히 어려운 문제에서 효과가 두드러짐
  • 쉬운 문제에서는 추가 연산이 낭비될 수 있음

두 가지 접근법

  1. Verifier 기반: 여러 답을 생성한 후, 검증 모델로 최적 답 선택
  2. 수정 기반: 초기 답을 반복적으로 수정/개선

o1과의 연결

이 논문은 OpenAI o1의 "생각하는 시간이 길수록 더 좋은 답" 접근법의 학술적 근거를 제공합니다.

실무 시사점

비용과 성능의 새로운 trade-off를 제시합니다. 정확도가 매우 중요한 태스크(의료, 법률, 금융)에서는 추론 비용을 더 투자하고, 속도가 중요한 태스크에서는 즉시 응답하는 적응적 전략이 가능합니다.