논문: Constitutional AI: Harmlessness from AI Feedback 저자: Bai et al. (Anthropic) 링크: https://arxiv.org/abs/2212.08073
논문 핵심
Constitutional AI(CAI)는 RLHF에서 인간 라벨러의 역할을 AI 자체가 대체하는 학습 방법입니다. 헌법(Constitution)에 정의된 원칙에 따라 AI가 스스로 출력을 평가하고 개선합니다.
학습 과정
"We train a harmless AI assistant without any human feedback labels for harms."
- Red Teaming: 모델에게 유해한 응답을 유도
- Critique: 다른 AI가 헌법 원칙에 따라 응답을 비평
- Revision: 비평을 반영하여 응답을 수정
- RLAIF: 수정된 데이터로 강화학습 (AI Feedback 기반)
헌법 원칙 예시
- "응답이 누군가를 차별하거나 해칠 수 있는가?"
- "응답이 불법적 활동을 조장하는가?"
- "응답이 정직하고 도움이 되는가?"
실무 시사점
CAI는 Claude 모델의 핵심 학습 방법입니다. 인간 라벨러에 대한 의존도를 줄이면서도 안전성을 높일 수 있다는 점에서, AI 안전 연구의 중요한 진전입니다.
기업이 AI 시스템의 안전 가이드라인을 수립할 때, CAI의 "원칙 기반 평가" 접근법을 참고할 수 있습니다.