GPT-4 Turbo와 GPTs가 핫한 와중에, Whisper large-v3 모델도 같이 공개됐네요. 음성인식 (ASR, Automatic Speech Recognition) 모델입니다.

전반적으로 성능이 많이 올랐네요.
근데 저 내용만 나오고 구체적으로 어떤 변경사항이 있는지 설명이나 논문이 없어 아쉽습니다.

한국어 WER이 기존 large-v2 모델의 경우 14.3%였는데, (논문도 14.3)
이번에 공개된 large-v3는 3.1%로 확 차이가 나는 것도 의문입니다. 비교 차트에 v2 모델도 3%대로 나와있어서... 음... 뭐가 바뀐거려나요
암튼 함 돌려봐야겠습니다.
번외로 DALL-E 3의 Consistency Decoder도 오픈소스로 풀렸습니다. https://github.com/openai/consistencydecoder
Stable Diffusion 1.0+의 VAE Decoder를 대체해서 사용할 수 있다고 하네요.
OpenAI가 Stable Diffusion 진영을 지원해주는 그림이 재밌습니다.

Cer은 음성인식시 잘못 삭제된 단어 비율
wer은 음성인식시 잘못 추가된 단어 비율
여하튼 낮을수록 인식률이 좋은겁니다.
전반적으로 약 10~20% 정도의 정확도 향상이 있다고 하네요.