논문: QLoRA: Efficient Finetuning of Quantized LLMs 저자: Dettmers et al. (University of Washington) 링크: https://arxiv.org/abs/2305.14314


논문 핵심

QLoRA는 사전학습된 모델을 4비트로 양자화한 상태에서 LoRA를 적용하여, 단일 48GB GPU(A6000)로도 65B 모델을 fine-tuning할 수 있게 합니다.

핵심 기술

"QLoRA는 65B 파라미터 모델을 단일 48GB GPU에서 fine-tuning할 수 있을 만큼 메모리 사용을 줄입니다."

  1. NF4 (4-bit NormalFloat): 정규 분포에 최적화된 4비트 양자화
  2. Double Quantization: 양자화 상수 자체도 양자화하여 메모리 추가 절감
  3. Paged Optimizers: GPU 메모리 부족 시 CPU 메모리로 자동 페이징

성능

QLoRA로 fine-tuning한 Guanaco 65B:

  • Vicuna 벤치마크에서 ChatGPT의 99.3% 수준
  • 단일 GPU로 24시간 학습

메모리 비교

방법 65B 모델 메모리
Full Fine-tuning (16bit) ~780GB
LoRA (16bit) ~260GB
QLoRA (4bit) ~48GB

실무 시사점

QLoRA는 "대형 모델 fine-tuning은 대기업만 가능하다"는 장벽을 허물었습니다. 중소기업이나 스타트업도 자사 도메인 데이터로 대형 모델을 커스터마이징할 수 있게 되었습니다.