논문: Constitutional AI: Harmlessness from AI Feedback 저자: Bai et al. (Anthropic) 링크: https://arxiv.org/abs/2212.08073


논문 핵심

Constitutional AI(CAI)는 RLHF에서 인간 라벨러의 역할을 AI 자체가 대체하는 학습 방법입니다. 헌법(Constitution)에 정의된 원칙에 따라 AI가 스스로 출력을 평가하고 개선합니다.

학습 과정

"We train a harmless AI assistant without any human feedback labels for harms."

  1. Red Teaming: 모델에게 유해한 응답을 유도
  2. Critique: 다른 AI가 헌법 원칙에 따라 응답을 비평
  3. Revision: 비평을 반영하여 응답을 수정
  4. RLAIF: 수정된 데이터로 강화학습 (AI Feedback 기반)

헌법 원칙 예시

  • "응답이 누군가를 차별하거나 해칠 수 있는가?"
  • "응답이 불법적 활동을 조장하는가?"
  • "응답이 정직하고 도움이 되는가?"

실무 시사점

CAI는 Claude 모델의 핵심 학습 방법입니다. 인간 라벨러에 대한 의존도를 줄이면서도 안전성을 높일 수 있다는 점에서, AI 안전 연구의 중요한 진전입니다.

기업이 AI 시스템의 안전 가이드라인을 수립할 때, CAI의 "원칙 기반 평가" 접근법을 참고할 수 있습니다.