Paper Review

BERT 파인튜닝의 불안정성과 해결법

BERT 파인튜닝이 왜 불안정한지, 어떻게 안정적으로 학습할 수 있는지를 분석한 논문입니다.

Scott K · Feb 1, 2020 · approx. 6min · views 5,647

논문: On the Stability of Fine-tuning BERT 저자: Mosbach et al. 링크: https://arxiv.org/abs/2006.04884

논문 핵심

BERT를 작은 데이터셋에 fine-tuning하면 랜덤 시드에 따라 성능이 크게 흔들리는 현상이 보고되었습니다. 이 논문은 그 원인을 분석하고 해결책을 제시합니다.

문제의 원인

"Fine-tuning instability is caused by vanishing gradients early in training and the small size of fine-tuning datasets."

초반 학습에서 gradient가 소멸하면서 학습이 불안정해짐
작은 데이터셋에서의 과적합 위험
Learning rate와 학습 스텝 수가 민감하게 작용

해결 방법

학습률을 낮추고 에폭을 늘림: 2e-5 대신 1e-5, 에폭 3→20
Bias Correction: Adam 옵티마이저의 bias correction 활성화
긴 Warmup: 학습률 warmup 비율을 10%까지 확대

실무 적용

BERT 기반 모델을 도메인 특화 데이터로 fine-tuning할 때, 단순히 기본 설정을 따르면 결과가 불안정합니다. 이 논문의 권장 사항을 적용하면 재현 가능하고 안정적인 학습을 달성할 수 있습니다.

#BERT #NLP #파인튜닝

Have questions about AI adoption? Feel free to reach out.

contact@difai.kr

Copied!