论文: 评估在代码上训练的大型语言模型 作者: Chen et al. (OpenAI) 链接: https://arxiv.org/abs/2107.03374
论文核心
Codex是对GPT-3进行GitHub公开代码微调的模型。在输入Python docstring时,它在生成函数主体的HumanEval基准测试中达到了28.8%的pass@1。
HumanEval基准测试
“我们介绍HumanEval,一组164个手写编程问题。”
对于每个问题,给定函数签名和docstring,需要生成正确的实现:
def has_close_elements(numbers, threshold):
"""检查是否存在差异小于threshold的元素对"""
# Codex生成此部分
主要发现
- 模型大小和代码生成能力呈现对数线性关系
- pass@100(100次尝试中至少成功1次)= 70.2%
- 通过重复采样+过滤可以大幅提高性能
实际意义
Codex成为GitHub Copilot的基础,开启了AI编码工具时代。本文首次为“AI能编程吗?”这一问题提供了定量答案。