#Alignment

Alignment 태그가 붙은 모든 글

AI 안전과 Alignment: 2025년 연구 동향

AI 모델이 강력해질수록 중요해지는 안전성과 정렬 연구의 최신 동향을 살펴봅니다.

· 6min

DPO: RLHF보다 간단한 정렬 방법

DPO는 보상 모델 없이 인간 선호도 데이터로 직접 모델을 최적화하여 RLHF를 단순화합니다.

· 7min

InstructGPT: RLHF의 실전 적용

InstructGPT는 인간 피드백 강화학습(RLHF)으로 GPT-3를 정렬하여, 더 유용하고 안전한 모델을 만든 논문입니다.

· 7min