논문: PaLM: Scaling Language Modeling with Pathways 저자: Chowdhery et al. (Google Research) 링크: https://arxiv.org/abs/2204.02311


논문 핵심

PaLM은 6,144개의 TPU v4 칩으로 학습된 540B 파라미터 모델입니다. 특히 추론(reasoning) 능력에서 이전 모델 대비 큰 도약을 보였습니다.

주요 성과

"PaLM demonstrates scaling capabilities across hundreds of language understanding and generation benchmarks."

  • 29개 NLP 벤치마크 중 28개에서 SOTA
  • BIG-bench에서 인간 평균 성능 초과
  • Chain-of-Thought와 결합 시 수학·논리 추론에서 대폭 향상

Pathways 시스템

PaLM의 기술적 혁신은 모델 자체뿐만 아니라, Google의 Pathways 분산 학습 시스템에도 있습니다:

  • 6,144 TPU v4를 2개의 Pod에서 동시 활용
  • 모델 병렬화 + 데이터 병렬화
  • 57.8% 하드웨어 활용률 (대규모 학습에서 매우 높은 수치)

실무 시사점

PaLM은 "모델이 충분히 크면 질적으로 새로운 능력(emergent abilities)이 나타난다"는 것을 보여주었습니다. 이는 AI 모델의 능력을 예측하기 어렵게 만들며, 기업의 AI 전략에서 지속적인 모니터링과 재평가의 중요성을 강조합니다.