Constitutional AI: AI가 스스로를 개선하는 방법

Red Teaming: 모델에게 유해한 응답을 유도
Critique: 다른 AI가 헌법 원칙에 따라 응답을 비평
Revision: 비평을 반영하여 응답을 수정
RLAIF: 수정된 데이터로 강화학습 (AI Feedback 기반)

논문: Constitutional AI: Harmlessness from AI Feedback 저자: Bai et al. (Anthropic) 링크: https://arxiv.org/abs/2212.08073

논문 핵심

Constitutional AI(CAI)는 RLHF에서 인간 라벨러의 역할을 AI 자체가 대체하는 학습 방법입니다. 헌법(Constitution)에 정의된 원칙에 따라 AI가 스스로 출력을 평가하고 개선합니다.

"We train a harmless AI assistant without any human feedback labels for harms."

CAI는 Claude 모델의 핵심 학습 방법입니다. 인간 라벨러에 대한 의존도를 줄이면서도 안전성을 높일 수 있다는 점에서, AI 안전 연구의 중요한 진전입니다.

기업이 AI 시스템의 안전 가이드라인을 수립할 때, CAI의 "원칙 기반 평가" 접근법을 참고할 수 있습니다.