Whisper: 범용 음성인식의 새 기준

논문: Robust Speech Recognition via Large-Scale Weak Supervision 저자: Radford et al. (OpenAI) 링크: https://arxiv.org/abs/2212.04356

논문 핵심

Whisper는 인터넷에서 수집한 68만 시간의 약한 라벨(weak supervision) 데이터로 학습된 음성인식 모델입니다. 99개 언어를 지원하며, 다양한 환경에서의 견고성이 핵심 강점입니다.

"We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet."

Whisper Large-v2의 한국어 성능은 상용 서비스와 경쟁 가능한 수준이며, 특히 IT/비즈니스 용어 혼합 발화에서 우수합니다.

Whisper는 오픈소스로 공개되어 자체 서버에서 운영할 수 있으므로, 데이터 보안이 중요한 기업에서 회의록 작성, 콜센터 분석 등에 즉시 활용할 수 있습니다.