論文: PaLM: Scaling Language Modeling with Pathways 著者: Chowdhery et al. (Google Research) リンク: https://arxiv.org/abs/2204.02311
論文の要点
PaLMは6,144個のTPU v4チップで学習された540Bパラメータモデルです。特に推論(Reasoning)能力で以前のモデルと比べて大きな飛躍を見せました。
主要な成果
"PaLM demonstrates scaling capabilities across hundreds of language understanding and generation benchmarks."
- 29個のNLPベンチマークのうち28個でSOTA
- BIG-benchで人間の平均性能を超過
- Chain-of-Thoughtと組み合わせた際に数学・論理推論で大幅に向上
Pathwaysシステム
PaLMの技術的革新はモデル自体だけでなく、GoogleのPathways分散学習システムにもあります:
- 6,144 TPU v4を2つのPodで同時に活用
- モデル並列化 + データ並列化
- 57.8%のハードウェア利用率(大規模学習で非常に高い数値)
実務的な示唆
PaLMは「モデルが十分に大きい場合、質的に新しい能力(Emergent Abilities)が現れる」ことを示しました。これはAIモデルの能力を予測するのが難しくなり、企業のAI戦略において継続的なモニタリングと再評価の重要性を強調します。