안녕하세요.
저를 포함한 시각장애인들은 드라마나 영화를 볼 때 같이 송출 되는 화면 해설 방송을 즐겨 보는데요.
유튜브는 아쉽게도 이런 화면 해설이 없어요.
화면 해설을 만들려면 돈이 많이 들어가거든요.
작가가 영상에 맞는 대본을 만들어야지, 성우가 녹음 해야지...
유튜브 영상은 이렇게 못 만들죠.
그래서 요새 제가 gemini를 이용 해서 화면 해설을 자동으로 만들어서 영상과 같이 볼 수 있는 서비스를 개발 중이에요.
지금 주변 시각 장애인들을 상대로 베타 테스트 중인데요.
다른 시각 장애인들도 사용 할 수 있게 공개 하려는 계획인데 문제는 비용이네요.
gcp에 서버를 올렸는데 그 vm 비용 + gemini api 사용 비용
vm 비용이야 월 정액으로 들어간다 치고 큰 문제는 api사용 비용 입니다.
테스트로 생성된 영상들의 평균 api사용요금이 영상당 600원 정도인데
사용자가 늘어나면 최소 한달에 몇 십만원은 들거 같아요.
개발 비용이야 제가 그냥 무료로 유지보수 한다 치지만
저 금액들은 제가 감당하지는 못하는 돈이네요.
어디선가 후원이라도 받지 않는 이상 공개 서비스는 어렵지 않나 싶네요.
@Luzi님
같은 영상이라면 화면 해설에 대한 정보를 저장하고 캐시해서 사용하면 api 비용을 상당히 줄일 수 있을것 같습니다.
음성은 whisper는 로컬로 돌리는게가능하니 이런식으로 전처리한번하면 될것같긴하거든요