論文: Evaluating Large Language Models Trained on Code 著者: Chen et al. (OpenAI) リンク: https://arxiv.org/abs/2107.03374
論文の要点
CodexはGPT-3をGitHubの公開コードでファインチューニングしたモデルです。Pythonのdocstringを入力すると関数本文を生成するHumanEvalベンチマークで28.8%のpass@1を達成しました。
HumanEvalベンチマーク
"We introduce HumanEval, a set of 164 handwritten programming problems."
各問題に対して関数シグネチャとdocstringが与えられると、正しい実装を生成する必要があります:
def has_close_elements(numbers, threshold):
"""二つの要素の差がthresholdより小さいペアが存在するか確認"""
# Codexがこの部分を生成
主要な発見
- モデルのサイズとコード生成能力は対数線形関係
- pass@100 (100回の試行で1回以上成功) = 70.2%
- リピートサンプリング+フィルタリングで性能を大きく向上可能
実務への示唆
CodexはGitHub Copilotの基盤となり、AIコーディングツールの時代を切り開きました。この論文は「AIがプログラミングできるか?」に対する定量的な回答を初めて提示しました。