論文: Evaluating Large Language Models Trained on Code 著者: Chen et al. (OpenAI) リンク: https://arxiv.org/abs/2107.03374


論文の要点

CodexはGPT-3をGitHubの公開コードでファインチューニングしたモデルです。Pythonのdocstringを入力すると関数本文を生成するHumanEvalベンチマークで28.8%のpass@1を達成しました。

HumanEvalベンチマーク

"We introduce HumanEval, a set of 164 handwritten programming problems."

各問題に対して関数シグネチャとdocstringが与えられると、正しい実装を生成する必要があります:

def has_close_elements(numbers, threshold):
    """二つの要素の差がthresholdより小さいペアが存在するか確認"""
    # Codexがこの部分を生成

主要な発見

  • モデルのサイズとコード生成能力は対数線形関係
  • pass@100 (100回の試行で1回以上成功) = 70.2%
  • リピートサンプリング+フィルタリングで性能を大きく向上可能

実務への示唆

CodexはGitHub Copilotの基盤となり、AIコーディングツールの時代を切り開きました。この論文は「AIがプログラミングできるか?」に対する定量的な回答を初めて提示しました。