지금 하는 일중에서 중요한 업무중에 하나가, 사용자들을 위한 튜토리얼 영상을 만드는 일입니다.
그런데, 실제 사용자들의 50% 이상이 글로벌 사용자이다보니, 유튜브로 영상을 만들고 자막을 영문으로 제공하는 것만 하고 있는데..
그 마저도 AI 의 발달로 영상을 한글로 녹음하고, 위스퍼로 자막 만들고 ( Subtitle Editor 쓰면 제일 좋습니다. )
그렇게 정리된 한글 자막을 ChatGPT 나 제미나이에게 통째로 던져주고 영문으로 번역하는 방식으로 했습니다.
그런데, 그렇게 하다보니 음성에 비해서는 확실히 영상 참여율이 크게 떨어지고, 영문으로도 튜토리얼을 만들어달라는 요청이 간혹 있게 되더군요.. 이런..
그래서 저의 짧은 영어 실력으로 영어 자막을 보고 읽는 식으로 영상을 만들어봤는데요.
외국계 기업에서 10년 가까이 근무한 저의 아내와, 미국에서 활동하는 친구에게 보여주니
' 하지마 ' 라고 하더군요 ㅠㅠ
그래서 짱구를 굴리다가, 시중에 있는 AI 음성 서비스들을 선택해서 여러가지를 써봤습니다.
대체로 과거에 비해서는 놀랍도록 좋아지긴 했는데, 무료로 사용한 음성의 경우는 너무 어색하거나, 시간이 짧고, 유료로도 몇개 테스트해서 써봤는데, 생각보다 별로인것도 있어서, 다른 서비스들도 쉽사리 월 구독 형태의 서비스를 사용하기 어려움이 있었습니다.
그러다가 제가 몇번 써봤던 MS 의 Azure AI 서비스가 생각나서, 한번 들어가서 보니 AI Speech Studio 라는 서비스가 있어서 이걸 이용해서 이슈를 해결하고 잘 쓰고 있습니다.
MS 는 AI Foundary라는 서비스를 통해서 AI 서비스들을 Azure 기반으로 사용해볼 수 있도록 제공하고 있는데, api 형태가 아니라 콘솔에서 직접 서비스를 사용하기 위해서는 스피치 스튜디오러 가셔서 하여야 합니다.

스피치 스튜디오에서는 여러가지 서비스를 제공하고 있는데, 음성 갤러리에 가면 정달 다양한 언어, 성별, 억양 등 다양한 옵션으로 음성을 만들때 어떻게 진행이 되는지를 확인해볼 수 있습니다.

사용할 음성을 선택하고, 만들어보기를 진행하면 아래와 같이 텍스트를 넣을 수 있는 메뉴가 나오는데
위에서 설명한 것처럼 한글 음성 -> 자막 -> 번역 -> AI 에게 대본용으로 정리해달라고 요청. 을 하면 아래와 같은 문장이 나와서 그걸 넣고 프리뷰를 해볼 수 있습니다. 문단별로 감정도 설정할 수 있어서 경우에 따라서는 다른 연출도 가능합니다.

그렇게 영상을 파일로 내보내고 기존 영상에 다시 노가다로 편집해서 붙여넣으면, 아주 훌륭하게 영상을 만들어 볼 수 있습니다.
저도 그래서 기존에 한글로 제작해놨던 영상들을 열심히 영문 음성으로 서비스하고 있는 중입니다.
가격도 상당히 저렴한데요. 무료 티어가 존재하긴 하지만, 무료는 음성 갤러리 제한등이 있어서, 다른 무료 서비스들과 크게 다른가? 는 잘 모르겠습니다.

저는 유료 서비스를 사용했고, 정확한 금액은 하나당 측정하긴 어렵지만, 대략 10분 영상을 제작하고나니 2천원 정도가 든 것 같습니다. 10분 정도에 아주 유창한 영문 음성 더빙을 2천원에 해결하다니.. 정말 가성비죠?

전체적인 과정은 아래 영상을 참조해주세요.
자세히 직접 해보는 과정은 블로그 포스팅으로 정리해뒀습니다.
https://soonsoon.io/how-to-make-ai-global-voice-with-azure-speech-studio/
이상으로 이번에 정리해본 관련 팁을 공유해드렸습니다.
스피치 스튜디오를 가보면 위와같은 귀찮은 과정없이도 영상을 통째로 업로드하면 알아서 번역, 문장정리까지해서 풀 영상으로만들어주는 기능도 있는데요. 상당히 유용해보이나, 한글 음절과 영문 음절이 다르다보니 갑자기 구간별로 빨리 말하거나.. 어색한 부분이 생기기도 하다보니 그런 문제점 때문에 저는 쓰기가 어렵더라고요.
그리고 한번에 영상을 몽땅 뽑아주다보니, 중간에 어색한 부분을 수정하기위해서 계속 비용을 지불해야하는 것도 맘에 들지않아 테스트삼아서 한두번 해보고 해보고 있진 않습니다.
개인적으로는 거의 혼자 일을 하다보니 여러부분에서 AI를 너무 잘 활용하고 있긴한데.. 여전히 아직은 수동의 경험과 잘 버무려서 사용하지 않으면 생산력은 좋으나 버리는게 많고, 중요한 부분에 실수를 많이하여 총 량을 보면 그냥 직접할때보다 퀄리티가 안나오거나 못쓰는 경우도 많은 것 같습니다.
그래서 아직까지는 AI 는 너무 신봉하기보다는 잘 파악해서 적절하게 응용해서 쓰는 습관이 중요한 것 같습니다.
그러나, 앞으로는 기존의 AI 서비스들과 융합되어서 한번에 더빙을 더 손쉽게 해주는 서비스들도 나오지 않을까 생각해봅니다.
이만 글을 마칩니다.
감사합니다.
비용과 무관하게 영어 발음이 가장 자연스러웠던 곳을 여쭤봐도 될까요?
블로그가 GeneratePress라 반갑네요. 요것도 GeneratePress와 플러그인 30개로 만들었습니다.
https://platum.kr/
요것이 실제로 해당 기능으로 만든 영상인데요. 미국에서 강의하는 친구도 보더니, 자기도 이걸 써야 겠다고 하는방법 알려달라고 하더군요.
그나저나 블로그 고수님이시군요.. 우왕... 제너레이트프레스가 무료이면서 가장 쓰기가 좋더라고요 ㅎㅎ 쓰는 법좀 알려주세요.
다른 음성 서비스 써보시면 보통 엑센트 부분, 및 플로우가 상당히 어색해요. 그런데 요 서비스는 그부분이 너무 자연스럽고, 음성 갤러리에 가보면 영어를 쓰는 나라가 워낙 많다보니 호주 엑센트, 인도 엑센트와 같은 부분을 구체적으로 설정할 수 있어서 매우 자연스러운 것 같습니다.
오히려 기존에 영어가 독점하는 시대로 다른 나라로 옮겨질 가능성도 높아보입니다.
기계는 쉬는 시간이 필요없죠.
저는 오히려 번역이나 통역의 일이 좀 더 범위가 늘어날 수 있으리라고 생각합니다.
오히려 아주 간단한 업무로 어설프게 전문성이 있는 것 처럼 해서 돈을 버는 분들이 매우 줄어들 것이라고 생각합니다. 실제로 실력이있지만, 단순 반복 업무나 노가다 업무를 하기가 어려워서 사람을 구인하거나 따로 외주를 줘야했던 번역가, 통역가분들에겐 이런 서비스를 활용한다면 훨씬 가치있게 업무가 가능하리라 생각해요.
물론 그냥 제 생각입니다 ㅎㅎ
결국 부익부 빈익빈이 되는거죠.
이건 결국 어떻게 쓰느냐에 따라서 과금이 달라져서... 쓰기 나름인거 같아요 ㅎㅎ 폴리 기준가격은 어떤가요?
저도 비슷한 업무에 한 다리를 살짝 걸치고 있어서 관심있던 분야인데, MS AI Studio도 한 번 써봐야겠어요.
글 공유해 주셔서 감사합니다.
도움 되시길 바랍니다!! 약간 노하우가 생기면, 좀 더 스마트하게 작업할 수 있을 것 같은데
향후에 이 내용도 한번 공유해보겠습니다 ㅎㅎ