논문: QLoRA: Efficient Finetuning of Quantized LLMs 저자: Dettmers et al. (University of Washington) 링크: https://arxiv.org/abs/2305.14314
논문 핵심
QLoRA는 사전학습된 모델을 4비트로 양자화한 상태에서 LoRA를 적용하여, 단일 48GB GPU(A6000)로도 65B 모델을 fine-tuning할 수 있게 합니다.
핵심 기술
"QLoRA는 65B 파라미터 모델을 단일 48GB GPU에서 fine-tuning할 수 있을 만큼 메모리 사용을 줄입니다."
- NF4 (4-bit NormalFloat): 정규 분포에 최적화된 4비트 양자화
- Double Quantization: 양자화 상수 자체도 양자화하여 메모리 추가 절감
- Paged Optimizers: GPU 메모리 부족 시 CPU 메모리로 자동 페이징
성능
QLoRA로 fine-tuning한 Guanaco 65B:
- Vicuna 벤치마크에서 ChatGPT의 99.3% 수준
- 단일 GPU로 24시간 학습
메모리 비교
| 방법 | 65B 모델 메모리 |
|---|---|
| Full Fine-tuning (16bit) | ~780GB |
| LoRA (16bit) | ~260GB |
| QLoRA (4bit) | ~48GB |
실무 시사점
QLoRA는 "대형 모델 fine-tuning은 대기업만 가능하다"는 장벽을 허물었습니다. 중소기업이나 스타트업도 자사 도메인 데이터로 대형 모델을 커스터마이징할 수 있게 되었습니다.