최근 해리포터 캐릭터들로 만든 발렌시아가 광고가 화제였었죠.
영상 쪽 말고 목소리는 elevenlab 이라는 회사에서 만들어낸 것이라길래, 호기심에 테스트 해보게 되었습니다.
배우인 알 파치노 음성으로 만들어보았습니다.
음성파일이 도합 5분 이상 되어야 좋은 결과물을 낼 수 있다고 하더라구요.
결과물은 아래와 같습니다.
스크립트는 유명한 스티브잡스의 05년 스탠포드 연설문입니다.
클리앙에 영상 업로드를 어떻게 하는지 몰라서 유튜브 링크로 올립니다. (다른 영상은 없습니다.)
우선 중요한 것은, 이 작업은 목소리 변조가 아니라 목소리 생성입니다.
따라서 스티브 잡스의 원본 음성은 필요가 없고, 스크립트만 있으면 됩니다.
제작할 때 말투의 일정함 정도를 조절할 수가 있습니다.
테스트 결과, 알 파치노와 목소리는 제법 비슷하지만 그렇다고 완전히 유사한 것은 아닙니다.
개인이 특정 단어를 말할 때의 습관이나 말하는 속도 등 좀더 세부적으로 조절이 가능해야 더 비슷하게 만들 수 있을 것 같았습니다.
하지만 제가 놀란 부분은 스크립트를 읽는 것, 즉 TTS(text to speech)가 매우 자연스럽다는 것입니다.
물론 제 모국어가 영어가 아니라 어느정도 자연스러운지는 정확히 알 수 없지만, 여타 TTS보다 훨씬 뛰어난 것 같았습니다.