PaLM: Pathways 기반의 540B 거대 모델

論文: PaLM: Scaling Language Modeling with Pathways 著者: Chowdhery et al. (Google Research) リンク: https://arxiv.org/abs/2204.02311

論文の要点

PaLMは6,144個のTPU v4チップで学習された540Bパラメータモデルです。特に推論(Reasoning)能力で以前のモデルと比べて大きな飛躍を見せました。

"PaLM demonstrates scaling capabilities across hundreds of language understanding and generation benchmarks."

PaLMの技術的革新はモデル自体だけでなく、GoogleのPathways分散学習システムにもあります:

PaLMは「モデルが十分に大きい場合、質的に新しい能力(Emergent Abilities)が現れる」ことを示しました。これはAIモデルの能力を予測するのが難しくなり、企業のAI戦略において継続的なモニタリングと再評価の重要性を強調します。