PaLM: Pathways 기반의 540B 거대 모델

논문: PaLM: Scaling Language Modeling with Pathways 저자: Chowdhery et al. (Google Research) 링크: https://arxiv.org/abs/2204.02311

논문 핵심

PaLM은 6,144개의 TPU v4 칩으로 학습된 540B 파라미터 모델입니다. 특히 추론(reasoning) 능력에서 이전 모델 대비 큰 도약을 보였습니다.

"PaLM demonstrates scaling capabilities across hundreds of language understanding and generation benchmarks."

PaLM의 기술적 혁신은 모델 자체뿐만 아니라, Google의 Pathways 분산 학습 시스템에도 있습니다:

PaLM은 "모델이 충분히 크면 질적으로 새로운 능력(emergent abilities)이 나타난다"는 것을 보여주었습니다. 이는 AI 모델의 능력을 예측하기 어렵게 만들며, 기업의 AI 전략에서 지속적인 모니터링과 재평가의 중요성을 강조합니다.