Whisper: 음성인식의 민주화
2022년 9월, OpenAI가 Whisper를 오픈소스로 공개했습니다. 68만 시간의 다국어 오디오 데이터로 학습된 이 모델은 상용 서비스에 버금가는 정확도를 무료로 제공합니다.
주요 특징
- 다국어 지원: 99개 언어 음성인식 및 번역
- 견고한 인식: 배경 소음, 악센트, 전문 용어에도 높은 정확도
- 자동 번역: 다른 언어 음성을 영어 텍스트로 직접 번역
한국어 성능
Whisper의 한국어 인식 정확도는 약 CER 8.8% 수준으로, 상용 서비스와 경쟁할 만한 수준입니다. 특히 IT, 비즈니스 용어가 섞인 한국어 음성에서 우수한 성능을 보입니다.
활용 사례
- 회의록 자동 작성
- 팟캐스트/유튜브 자동 자막 생성
- 다국어 실시간 통역 보조
- 고객센터 통화 분석
Whisper는 음성인식이 더 이상 대기업의 전유물이 아니라는 것을 보여준 사례입니다.