논문: On the Stability of Fine-tuning BERT 저자: Mosbach et al. 링크: https://arxiv.org/abs/2006.04884
논문 핵심
BERT를 작은 데이터셋에 fine-tuning하면 랜덤 시드에 따라 성능이 크게 흔들리는 현상이 보고되었습니다. 이 논문은 그 원인을 분석하고 해결책을 제시합니다.
문제의 원인
"Fine-tuning instability is caused by vanishing gradients early in training and the small size of fine-tuning datasets."
- 초반 학습에서 gradient가 소멸하면서 학습이 불안정해짐
- 작은 데이터셋에서의 과적합 위험
- Learning rate와 학습 스텝 수가 민감하게 작용
해결 방법
- 학습률을 낮추고 에폭을 늘림: 2e-5 대신 1e-5, 에폭 3→20
- Bias Correction: Adam 옵티마이저의 bias correction 활성화
- 긴 Warmup: 학습률 warmup 비율을 10%까지 확대
실무 적용
BERT 기반 모델을 도메인 특화 데이터로 fine-tuning할 때, 단순히 기본 설정을 따르면 결과가 불안정합니다. 이 논문의 권장 사항을 적용하면 재현 가능하고 안정적인 학습을 달성할 수 있습니다.