OpenAI Whipser large-v3 모델이 공개됐네요 : 클리앙

GPT-4 Turbo와 GPTs가 핫한 와중에, Whisper large-v3 모델도 같이 공개됐네요. 음성인식 (ASR, Automatic Speech Recognition) 모델입니다.

전반적으로 성능이 많이 올랐네요.

근데 저 내용만 나오고 구체적으로 어떤 변경사항이 있는지 설명이나 논문이 없어 아쉽습니다.

한국어 WER이 기존 large-v2 모델의 경우 14.3%였는데, (논문도 14.3)

이번에 공개된 large-v3는 3.1%로 확 차이가 나는 것도 의문입니다. 비교 차트에 v2 모델도 3%대로 나와있어서... 음... 뭐가 바뀐거려나요

암튼 함 돌려봐야겠습니다.

번외로 DALL-E 3의 Consistency Decoder도 오픈소스로 풀렸습니다. https://github.com/openai/consistencydecoder

Stable Diffusion 1.0+의 VAE Decoder를 대체해서 사용할 수 있다고 하네요.

OpenAI가 Stable Diffusion 진영을 지원해주는 그림이 재밌습니다.

Screenshot 2023-11-07 at 1.35.26 PM.png

모두의공원