OpenAI가 새로운 음성 AI 모델 'gpt-4o-transcribe'를 발표했습니다.
이 모델은 기존 텍스트 앱에 몇 초 만에 음성 기능을 추가할 수 있게 해주는 기술입니다.
OpenAI는 이번에 세 가지 음성 모델을 공개했습니다.
'gpt-4o-transcribe', 'gpt-4o-mini-transcribe', 그리고 'gpt-4o-mini-tts'입니다.
이 모델들은 우선 API를 통해 개발자들에게 제공되며, 일반 사용자들은 'OpenAI.fm'이라는 데모 사이트에서 제한적으로 체험해볼 수 있습니다.
특히 주목할 만한 점은 'gpt-4o-mini-tts' 모델의 음성 맞춤 기능입니다.
사용자는 텍스트 프롬프트를 통해 억양, 음조, 톤과 같은 음성 특성을 다양하게 조절할 수 있습니다.
심지어 감정 표현까지 요청에 따라 변경할 수 있어 더욱 자연스러운 음성 구현이 가능합니다.
출처 : OpenAI
이번에 발표된 모델은 OpenAI의 기존 오픈소스 모델인 'Whisper'보다 월등히 향상된 성능을 보여줍니다.
산업 벤치마크 테스트에서 단어 오류율이 크게 감소했으며, 특히 영어에서는 오류율이 2.46%에 불과합니다.
또한 소음이 많은 환경에서도 좋은 성능을 보이고, 100개 이상의 언어와 다양한 억양을 지원합니다.
해리스는 "이 모델들은 노이즈 캔슬링과 의미론적 음성 활동 감지 기능을 갖추고 있어 화자가 말을 마쳤을 때를 정확히 감지하고, 이를 통해 문자 변환의 정확도가 높아진다"고 설명했습니다.
다만, 여러 화자를 구분하는 '화자 분리(diarization)' 기능은 제공하지 않습니다.
실용적인 측면에서, 이 모델들은 고객 콜센터, 회의 기록, AI 비서와 같은 분야에 적합합니다.
특히 OpenAI의 Agents SDK를 사용하면 기존 텍스트 기반 앱에 단 "9줄의 코드"만으로 음성 상호작용 기능을 추가할 수 있습니다.
예를 들어, GPT-4o 위에 구축된 전자 상거래 앱은 이제 새로운 모델을 추가하여 코드를 몇 초만 수정하면 "내 마지막 주문에 대해 알려줘"와 같은 턴 기반 사용자 질문에 음성으로 응답할 수 있습니다.
새 모델의 가격은 다음과 같습니다:
- gpt-4o-transcribe: 백만 오디오 입력 토큰당 6달러(분당 0.006달러)
- gpt-4o-mini-transcribe: 백만 오디오 입력 토큰당 3달러(분당 0.003달러)
- gpt-4o-mini-tts: 백만 텍스트 입력 토큰당 0.60달러, 백만 오디오 출력 토큰당 12달러(분당 0.015달러)
경쟁사인 ElevenLabs의 'Scribe' 모델은 화자 분리 기능을 지원하고 영어에서 3.3%의 오류율을 보입니다.
가격은 분당 약 0.006달러로 OpenAI와 비슷합니다.
Hume AI의 'Octave TTS'는 문장 및 단어 수준에서 발음과 감정 표현을 맞춤화할 수 있습니다.
오픈소스 커뮤니티에서는 'Orpheus 3B'와 같은 무료 모델도 등장하고 있습니다.
향후 OpenAI는 오디오 모델 개선과 맞춤형 음성 기능 탐색을 계속할 예정이며, 비디오를 포함한 멀티모달 AI에도 투자를 확대할 계획입니다.
OpenAI 블로그 게시물 : https://openai.com/index/introducing-our-next-generation-audio-models/
빅테크들의 베이스모델이 향후에 AI 스타트업들 기능 따라잡는 건 시간문제라고 봅니다.
모델이 더 좋으면 더 적은 데이터만 학습해도 그 기능이 구현되니까요.