최근 영상 콘텐츠를 제작하면서 상용 TTS 서비스들의 구독 비용이나 다운로드 횟수 제한,
그리고 무엇보다 채널 개성이 흔해지는 문제(양산형 목소리) 때문에 고민하는 분들이 많습니다.
그래서 대안으로 오픈소스 기반의 RVC(Retrieval-based Voice Conversion) 엔진인 Applio를 도입해,
제 로컬 환경(ASUS ROG, RTX 2060 6GB)에서 단 11분의 음성 데이터셋으로 나만의 독점 AI 성우 모델을 파인튜닝하는 실험을 진행해 보았습니다.
그 과정에서 일반적인 교과서적 이론과 실제 로컬 빌드 환경에서 발생하는 간극, 그리고 이를 해결하기 위해 작성했던 파이썬 오디오 전처리 코드 조각을 공유하며 클리앙 회원님들과 관련 기술에 대한 이야기를 나누어보고자 합니다.