· 메인: M1 / 8GB
· 보조: M4 / 32GB
메인은 순수하게 오픈클로만 굴리고 있으며 보조는 제가 집에서 일상적으로 쓰는 맥인데 그러기엔 성능이 치고 넘치니 파워풀한 작업은 보조로 굴리고 있습니다.
(모델은 대란 GPT로 긁어놓은 GPT 5.5)
전화를 유니허츠 타이탄 2라는 놈으로 바꿨는데 에이닷 통화 녹음은 지원하지 않지만 통화 앱의 종류를 가리지 않고 무조건 자동 녹음까진 되더라고요. 그래서 프로세스 과정이,
통화 자동 녹음 → 시놀로지 드라이브로 나스 동기화 → 나스에서 보조/메인으로 모두 동기화 → 보조에서 Whisper 오프라인 최고 쎈 모델로 전사 작업 → 변환된 TXT를 기반으로 메인에서 이후 업무 진행
이후 업무 진행이란,
· 일정 할일 등등 반영할 거 있으면 판단해서 카테고리별로 알아서 작업
· 얘가 잘 모르겠다 싶으면 미분류로 빼서 내가 판단하도록 별도 보관
· 대화 흐름 맥락을 인지해서 작업 (예를 들어 첫 통화는 회신 요청, 두 번째 통화가 회신이 오면 회신에 맞는 후속 작업 실행)
등이 목표입니다. 메인 / 보조 각각 5분 크론 걸어놓았고 지금 첫 작업으로 그간 밀린거 전사 작업 진행중이네요 ㄷㄷㄷ
※ GPT 5.5는 이 과정을 만드는 파이썬 코더 때 쓰고 전사된 TXT를 기반으로 일 할 때 정도만 써서 전사작업 자체는 맥에 오프라인으로 진행하고 토큰 사용량은 거의 없다시피 합니다.
※ 휘스퍼 모델 중 제일 쎈 놈이 Large-V3인데 애플 실리콘 GPU도 쓰고 램도 4~5기가 정도는 잡아먹더군요. M1 8기가에선 살짝 벅차서 모델 성능 낮추면 되긴 하는데 M4 / 32GB가가 있는 한 작업은 분담해도 되니...
그걸 오픈클로 릴레이 돌려서 주기적으로 수집합니다.. ㅎ
Whisper → Whisper X → Hugging Face 3단계를 거쳐서 화자분리 작업까지 마무리됩니다 ㄷㄷㄷㄷ
이거 좀 더 편한 방법이 있는지 확인해봐야겠어요