QLoRA: 48GB GPU 하나로 65B 모델 파인튜닝

NF4 (4-bit NormalFloat): 정규 분포에 최적화된 4비트 양자화
Double Quantization: 양자화 상수 자체도 양자화하여 메모리 추가 절감
Paged Optimizers: GPU 메모리 부족 시 CPU 메모리로 자동 페이징

논문: QLoRA: Efficient Finetuning of Quantized LLMs 저자: Dettmers et al. (University of Washington) 링크: https://arxiv.org/abs/2305.14314

논문 핵심

QLoRA는 사전학습된 모델을 4비트로 양자화한 상태에서 LoRA를 적용하여, 단일 48GB GPU(A6000)로도 65B 모델을 fine-tuning할 수 있게 합니다.

"QLoRA는 65B 파라미터 모델을 단일 48GB GPU에서 fine-tuning할 수 있을 만큼 메모리 사용을 줄입니다."

QLoRA로 fine-tuning한 Guanaco 65B:

QLoRA는 "대형 모델 fine-tuning은 대기업만 가능하다"는 장벽을 허물었습니다. 중소기업이나 스타트업도 자사 도메인 데이터로 대형 모델을 커스터마이징할 수 있게 되었습니다.