論文: The Claude 3.5 Model Family 著者: Anthropic リンク: https://www.anthropic.com/news/claude-3-5-sonnet
論文の要点
Claude 3.5 SonnetはGPT-4oと同等またはそれ以上のベンチマークを記録しながら、AnthropicのConstitutional AI(CAI)に基づく安全性フレームワークをさらに強化しました。
主要な性能
「Claude 3.5 Sonnetは大学院レベルの推論およびコーディングにおける新しい業界ベンチマークを設定しました。」
- MMLU: 88.7% (GPT-4oに対して類似)
- HumanEval: 92.0% (コード生成の最高水準)
- 大学院レベルのQA: 既存のすべてのモデルを上回る
- ビジョン理解: チャート、ドキュメント、画像解釈の強み
Constitutional AIの発展
Claudeの安全性アプローチはRLHFとは異なり、AI自体が原則に従って自らの出力を評価し修正します:
- 憲法(原則)の定義
- AIが自らの出力を原則に照らして批評
- 批評に基づき出力を修正
- 修正されたデータで学習
実務上の示唆
Claude 3.5 Sonnetはコード生成と分析タスクで特に強い面を示します。企業環境で安全性が重要な場合、CAIに基づく予測可能な行動パターンは大きな利点です。