우선... 이대로 따라하면 됩니다.
근데 amd 그래픽카드를 쓰는 사람들은 한계가 있습니다.
엄청난 발전까지는 아니고 기존 프로그램을
카카오가 모듈화시켜서 정식 서비스한다는 것이 핵심입니다.
그래서 기존 위스퍼를 사용해봤던 분들은 큰 차이가 없다고 봐도...
영상에서 나오지 않는 문제 몇가지를 이야기하자면
1. 관리자권한으로 실행해야 되는 분들이 있습니다.
간단히 요약하면, 음성을 자막으로 변환하면서 나오는 자막을
임시로 저장해야 되는 공간에 대한 사용 허가를 해줘야 된다는 말입니다.
2. amd 그래픽카드 쓰는 사람들은 cpu를 갈궈야 합니다.
기존 위스퍼 뿐만 아니라 AI관련 프로그램들도 모두 nvidia기준이다보니....
때문에 변환 엔진을 권장하는 것을 쓰는게 아니라 cpu로 바꿔야 됩니다.
3. 일정시간 이상을 넘어가면 기능이 안됩니다.
amd라... 그런 것인지 제가 다른 컴퓨터가 없어서 모르겠지만
이번 것은 20분 이상은 안되더군요.
별도로 있는 위스퍼도 같은 현상이 일어났었습니다.
같은 단어가 반복되어 나오더군요.
그럼 많은 분들의 즐거운 영화감상을 기원하며...
(샘플 영상은 대사가 … 야동 같은데요)
지금 여기서 이용되는 동영상 플레이어 자체가 카카오 번역을 쓰는데, 카카오 번역에서 이상하게 할 때가 있긴 합니다. 문젠 동영상 플레이어 자체가 카카오에서 만드는 것이라 다른 번역기는 손쉽게 쓸 수가 없다는 단점이 좀 있습니다. 다른 번역기로 바꿔쓸 수 있는 기능은 존재하긴 하지만요.
영상에서 설명하는 것은 영상의 음성을 스크립트화 하는 것이라서 시간이 걸리는 쪽은 음성을 문자화하는데 걸리는 시간입니다. 만약 일본어나 영어 스크립트가 있으면 번역엔 시간이 걸리지 않습니다.
그래도 다 엔비디아는 스트립트를 다 따나보네요. amd 쓰는 입장이라 부럽습니다. ㅜㅜ
몇십분이나 걸린다면 설정이 뭔가 잘못된 것 같습니다.
저는 2시간 넘는 동영상도 5분 이내에 끝나거든요.
참고로 Silero VAD 겨서 음성 부분만 필터링한 다음에 돌리면 훨씬 빨라져요.
음성 필터링에 1분 정도 걸리고 추출한 음성 부분 텍스트 전사에 2분 이내로 걸리네요.
large-V3 모델입니다.