AI Alignment 연구의 부상

목표 불일치: AI가 인간이 의도한 것과 다른 목표를 추구
보상 해킹: 보상 함수의 허점을 이용해 의도치 않은 행동
분포 밖 일반화: 학습 데이터에 없는 상황에서의 예측 불가한 행동

AI Alignment: 인간과 맞추기

모델이 점점 강력해지면서, AI Alignment — AI가 인간의 의도와 가치에 부합하도록 만드는 연구 — 가 중요한 분야로 부상하고 있습니다.

강력한 언어 모델이 유해한 콘텐츠를 생성하거나, 의도와 다른 행동을 할 수 있습니다:

RLHF (Reinforcement Learning from Human Feedback) 인간의 피드백을 보상 신호로 활용하여 모델을 정렬합니다. InstructGPT(2022.01)와 ChatGPT의 핵심 기술입니다.

Constitutional AI Anthropic이 제안한 방식으로, AI가 스스로 원칙에 따라 출력을 수정합니다.

OpenAI, Anthropic, DeepMind 등이 Alignment 연구에 상당한 자원을 투자하고 있습니다. 이 분야는 앞으로 AI 발전의 핵심 축이 될 것입니다.