论文: 评估在代码上训练的大型语言模型 作者: Chen et al. (OpenAI) 链接: https://arxiv.org/abs/2107.03374


论文核心

Codex是对GPT-3进行GitHub公开代码微调的模型。在输入Python docstring时,它在生成函数主体的HumanEval基准测试中达到了28.8%的pass@1。

HumanEval基准测试

“我们介绍HumanEval,一组164个手写编程问题。”

对于每个问题,给定函数签名和docstring,需要生成正确的实现:

def has_close_elements(numbers, threshold):
    """检查是否存在差异小于threshold的元素对"""
    # Codex生成此部分

主要发现

  • 模型大小和代码生成能力呈现对数线性关系
  • pass@100(100次尝试中至少成功1次)= 70.2%
  • 通过重复采样+过滤可以大幅提高性能

实际意义

Codex成为GitHub Copilot的基础,开启了AI编码工具时代。本文首次为“AI能编程吗?”这一问题提供了定量答案。