Codex: 코드 생성 언어 모델

論文: Evaluating Large Language Models Trained on Code 著者: Chen et al. (OpenAI) リンク: https://arxiv.org/abs/2107.03374

論文の要点

CodexはGPT-3をGitHubの公開コードでファインチューニングしたモデルです。Pythonのdocstringを入力すると関数本文を生成するHumanEvalベンチマークで28.8%のpass@1を達成しました。

"We introduce HumanEval, a set of 164 handwritten programming problems."

各問題に対して関数シグネチャとdocstringが与えられると、正しい実装を生成する必要があります:

def has_close_elements(numbers, threshold):
    """二つの要素の差がthresholdより小さいペアが存在するか確認"""
    # Codexがこの部分を生成

CodexはGitHub Copilotの基盤となり、AIコーディングツールの時代を切り開きました。この論文は「AIがプログラミングできるか？」に対する定量的な回答を初めて提示しました。