네이버에서 본문읽기 누르면 기본적으로 이 목소리로 재생된다고 합니다.
기자회견 전문이나 이런 건 꽤나 깔끔하게 들리네요.
https://news.naver.com/main/read.nhn?mode=LPOD&mid=sec&oid=298&aid=0000307295
예시 기사입니다.
* 네이버 보도자료입니다.
https://www.navercorp.com/promotion/pressReleasesView/30240
네이버 뉴스, AI 앵커가 오상진 전 아나운서 목소리로 읽어준다
- 네이버 클로바 nVoice의 HDTS 기술로 생성한 오상진 전 아나운서 음성의 국내 최초 AI 앵커
- 기존 기술 고도화해 명료하고 정확한 발음뿐 아니라, 뉴스 전달에 적합한 목소리 톤 구현
- 향후 네이버 지도, 음성검색 및 클로바 탑재 스마트스피커 등 다양한 서비스에도 적용될 예정
2020.05.29
네이버㈜(대표이사 사장 한성숙)는 네이버 뉴스 기사 ‘본문 읽기’ 서비스에 오상진 전 아나운서의 목소리를 기반으로 개발한 AI 앵커를 적용했다고 밝혔다.
이번에 선보이는 기존 네이버 뉴스 기사 본문 읽기 서비스에 적용되었던 UTS(Unit-selection Text-to-Speech)[i] 기반 서비스와 비교하여, 목소리의 자연스러움을 평가하는 MOS (Mean Opinion Score) [ii]지표가 30% 이상 높아졌다. 특히, 뉴스 읽기 분야에 전문화된 목소리의 특성에 집중해 만들어진 합성음인 만큼, 실제 앵커가 기사를 전달하는 목소리 톤(tone)과 높낮이까지 구현했다.
네이버는 기존 클로바 인공지능 음성합성 기술인 nVoice 를 더욱 고도화하는 한편, 특정 분야에 전문화된 목소리의 특성을 강화해 본연의 목소리에 가까운 고품질 합성음을 만드는 HDTS(High-quality DNN Text-to-Speech) 기술을 업그레이드 해 뉴스 전달에 최적화된 음성을 합성할 수 있었다.
특히, 일련의 과정에서 전사(transcription) 작업을 사람이 아닌 기계가 직접 학습해 진행하는 딥러닝(deeplearning)이 적용되어, 개발에 필요한 비용과 소요 기간을 획기적으로 줄일 수 있었다고 회사 측은 전했다.
이렇게 만들어진 AI 앵커는 네이버 지도, 음성검색, 클로바 탑재 스마트스피커 등 음성으로 콘텐츠를 전달받을 수 있는 다양한 영역에 걸쳐 활용될 예정이다.
김재민 네이버 클로바 보이스 책임리더는, “이번 작업 과정에서는 오상진 전 아나운서가 직접 뉴스를 읽어주는 것 같은 자연스러움을 느낄 수 있을 정도의 고도의 정밀함과 전문성을 구현하는 것에 더욱 집중했다.”며, “앞으로도 다양한 콘텐츠를 음성으로 접할 때 어색함이 없도록, 관련 기술을 고도화해 나갈 것” 이라고 밝혔다. (이상)
참고: 클로바 보이스 https://clova.ai/voice
클로바 더빙 https://clovadubbing.naver.com/
[i] nVoice : UTS, HDTS, NES 기술 및 각각의 하이브리드 구조를 모두 총괄해 일컫는 네이버 클로바 음성합성 기술
ž UTS(Unit-selection Text-to-Speech): 가장 널리 활용되는 음성합성 기법으로, TTS(Text to Speech) 서비스에 주로 활용됨
ž HDTS(High-quality DNN Text-to-Speech): 특정 분야에 필요한 목소리 특성을 살려 최고 품질의 합성음을 만드는 기법
ž NES(Natural End–to-end Speech Synthesis): 특정 분야에 대한 제약 없이, 짧은 녹음 시간 만으로도 사람에 가까운 자연스러운 목소리를 제작하는 기법
[ii] MOS (Mean Opinion Score) : 인공지능 음성합성음의 자연스러움을 평가하는 지표로, 이번에 적용된 AI 앵커의 경우 외부 기관에 의뢰한 결과 4.21을 기록했다.
상대적이 아닌 절대 수치로 나타내며, 실제 사람과 구별할 수 없는 수준의 경우의 지표가 5.0임.