논문: Robust Speech Recognition via Large-Scale Weak Supervision 저자: Radford et al. (OpenAI) 링크: https://arxiv.org/abs/2212.04356
논문 핵심
Whisper는 인터넷에서 수집한 68만 시간의 약한 라벨(weak supervision) 데이터로 학습된 음성인식 모델입니다. 99개 언어를 지원하며, 다양한 환경에서의 견고성이 핵심 강점입니다.
학습 접근법
"We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet."
- 특수한 데이터 수집이나 라벨링 없이, 인터넷의 자연 발생 자막 데이터 활용
- Multitask Training: 음성인식, 번역, 언어 감지, 타임스탬프를 단일 모델로
한국어 성능
Whisper Large-v2의 한국어 성능은 상용 서비스와 경쟁 가능한 수준이며, 특히 IT/비즈니스 용어 혼합 발화에서 우수합니다.
모델 크기별 성능
| 모델 | 파라미터 | 영어 WER |
|---|---|---|
| Tiny | 39M | 7.6% |
| Base | 74M | 5.0% |
| Large | 1,550M | 2.7% |
실무 시사점
Whisper는 오픈소스로 공개되어 자체 서버에서 운영할 수 있으므로, 데이터 보안이 중요한 기업에서 회의록 작성, 콜센터 분석 등에 즉시 활용할 수 있습니다.