#RLHF

RLHF 태그가 붙은 모든 글

ChatGPT의 기반 기술: InstructGPT + RLHF 심화 분석

ChatGPT의 기술적 배경인 InstructGPT와 RLHF 파이프라인을 심화 분석합니다.

· 8分

InstructGPT: RLHF의 실전 적용

InstructGPT는 인간 피드백 강화학습(RLHF)으로 GPT-3를 정렬하여, 더 유용하고 안전한 모델을 만든 논문입니다.

· 7分