윈도우는 GPT4ALL이란 솔루션이 있고
맥은 Ollama라는 솔루션이 있습니다.
윈도우 데스크탑은 3060이 딸려 있어서 이걸로 돌려보는데
7B까지는 괜찮은 속도로 나오지만 13B 이상으로 가면 버벅이면서 GPU가 아니라 CPU로 돌아갑니다.
13B 모델(위자드)을 쓸 때 아마 GPT4ALL에서 VRAM 부족으로 외장글카를 인식 못 하는 거 같습니다.
로컬로 돌려보는 이유 중 하나가 오프라인 PDF 리딩 머신을 만들기 위함인데,
역시 로컬로는 한계가 있어서 논문 요약을 시키면 초록 정도 수준에 멈춥니다.
디테일을 물어봐도 같은 대답만 합니다.
맥은 지금 설치하고 챗봇이 돌아가는지 테스트만 했습니다.
PDF 읽기와 요약은 아직 안 시켜봤는데 그다지 큰 기대는 안 하고 있습니다.
챗GPT4 정도의 수준을 기대한 건 아니지만 예상보다도 별로라서
초거대 언어모델을 돌리기 위한 사양을 알아봤습니다.
로콜로 제대로 돌리려면 적어도 4090은 있어야 하고 VRAM도 24기가 이상은 돼야 한다고 합니다.
전기세는 딱히 걱정을 하지 않기에 4090 구매를 알아봤지만 여전한 가격대에 좌절했고
새로 나오는 라인업도 VRAM 같은 사양이 부족해서 걸렀고,
황회장의 기가 막힌 급나누기에 혀를 내둘렀습니다.
글카 사려면 파워도 올려야 하니 여러모로 돈이 더 드는데
걍 깔끔하게 포기하고 챗GPT4나 써야겠습니다.
(맥은 좀 더 테스트를 해보고 괜찮으면 후기를 써보겠습니다)
학습(파인튜닝)이 필요하면 구글 코랩이나 런포드 같은 서비스를 써야한다고 하니
좀 더 공부하고 시도해봐야겠네요.
제한된 모델에서 긴 문서 요약은 이전 문단 요약문 + 다음 문단을 입력으로 한문단씩 요약하면 어떨까 싶네요.
로컬로 돌리는데 최소 4090이고 모델 빌딩도 아니고 파인튜닝도 4090으로 쉽지 않다는 걸 보면, LLM 하는 게 참 쉽진 않습니다.
여건만 된다면 별도로 돌리는게 충분히 가치있는 일이기는 한데 쉽지 않죠.