OpenAI/Whisper는 OpenAI에서 내놓은 음성을 텍스트로 변환해주는 음성인식 AI입니다.
Github홈페이지는 https://github.com/openai/whisper 입니다.
그리고 OpenAI 홈페이지는 https://openai.com/research/whisper 입니다.
현재 Python을 이용해서 사용할 있는데 사용용도는 동영상이나 노래 등에서 음성을 인식해서 자막이나 가사를 파일로 생성해줍니다.
첫번째 링크로 가시면 환경설정 방법이 있는데 대략 아래와 같습니다.
1. Python 3.9.9설치(3.8~3.11까지 가능함)
2. PyTorch 1.10.1 설치(최신 PyTorch를 지원하며, 현재 애플실리콘 맥 기준으로 2.0.0까지 나와있음)
3. open-whisper 설치
4. setuptools-rust 설치
이렇게만 하면 사용이 가능합니다.
제가 설치한 환경은 아래와 같습니다.
- Mac Studio M1 Max, 64GB
- Python 3.11.3
- PyTorch 2.0.0
이 환경에서 제가 한 테스트는 노래한곡을 듣고 얼마나 정확하게 가사를 추출하느냐였습니다.
곡명 : 두사랑(다비치)
이 모델의 경우 tiny, base, small, medium, large 5개가 있는데 default는 small이며, 저는 small, medium, large 3개에 대해 테스트를 해보았습니다.
지원하는 언어는 꽤나 많은데 정확한 언어 목록은 링크페이지를 참고하시면 될듯 합니다.
좀 더 보기편하게 추출된 가사의 라인에 맞게 원본 가사의 라인을 수정했습니다.
1. small(3분53초)

오른쪽이 실제 가사이며, 가사와 비교해서 틀린부분을 표시했습니다.
'데', '대' 와 같은 부분은 그냥 넘어갔으며 눈으로 체크해서 일부 틀릴수도 있습니다.
총 24곳이 틀린것으로 나오네요.
2. medium(8분15초)
medium은 총 14곳이 틀렸으며, 1곳은 아예 가사를 적어내지 못한 부분도 있었습니다.
3. large(13분46초)

large는 총 13곳이 틀렸으며, small과 medium에서는 맞은 부분이 틀리기도 했습니다.
후기랄것도 없지만 간단한 느낌을 말씀드리자면 동영상제작이나 노래 가서 추출 등 다양한 활용처가 있어보이며, 한글의 경우는 medium정도면 꽤 괜찮은 결과를 얻어낼수 있을듯 합니다.
그리고 추출한 언어를 번역하는 기능도 있는데 영어만 되는듯 합니다. 이부분은 제가 정확히 알지 못하는걸수 있으니 확인이 필요할듯 합니다.
대충 작성한 사용기 이만 줄이겠습니다.
윈도우 환경에선 nvidia 외의 GPU로 구동하는 게 어려운 것 같아 그 쪽은 어떤지 여쭤봅니다......
맥스튜디오는 PyTorch 2.0.0 cpu버전이 설치되더군요...conda search로 봐도 gpu_mps버전은 안보이네요.
그래서 같은 작업(small 모델)을 했을때 맥북프로14가 조금 더 빨랐습니다.
근데 또 medium에서는 맥스튜디오 메모리가 많아서 그런지 몰라도 맥스튜디어가 빠르더군요.
pytorch버전이 1.13.1 gpu_mps이긴 한데 gpu를 쓰는건 아니네요..
참고로 별도 만들어진 Webui에 유투브도 바로 연동할 수 있어서 좋고 영상은 간단하게 음성만 추출해서 자막만드는 것이 좋더군요.
해당부분만 개선되면 좋을것 같은데...
페이스북 변환 모델을 지원하는 부분이 추가된 것도 있는데, 외국어를 한국어로 번역하면 번역질이 매우 안좋아서 쓸게 못되더군요.
자막파일을 열어서 일일히 DEEPL 통해서 번역해서 다시 붙여넣고 해야하는 식으로 처리해야해서 양이 많을경우 많이 불편해서 좀더 개선된 플러그인 같은게 만들어지면 좋을것 같습니다.
그래도 유튜브 업로드 영상에 영어 자막달때 매우 편하게 사용하고 있어, 기술의 발전이 느껴집니다.
그 별도의 탭이 페이스북 모델 사용하는 것 아닌가요?
그거 한국어 번역 능력이 정말 안좋습니다. (제가 테스트 해본것은 일본어 -> 한국어)
/Vollago
설치가 매우 간단하다는게 장점입니다. 일반버전은 0원, pro버전은 19유로부터 시작됩니다만, 짧은 분량 텍스트로 변환한다고하면 일반버전도 충분할것 같습니다. 한국어와 영어를 테스트해보았는데, 아무래도 영어의 인식이 훨씬 좋은 느낌이었습니다.
영상을 집어넣었을때는 SRT파일로 결과물을 익스포트도 해줍니다.
https://goodsnooze.gumroad.com/l/macwhisper