안녕하세요, 로컬 LLM에 입문하는 AI린이 입니다.
Ollama로 시작했다가, LM Studio를 추천하셔서 써보려고 하는데요,
Ollama에서는 추론시 GPU를 사용했는데 LM Studio에서는 CPU를 쓰는 것 같습니다.
(Ollama는 exaone3.5:7.8B, LM Studio는 exaone4.0.1:32B로 차이는 있습니다)
LM Studio에서 CPU 대신 GPU를 사용하게 할 수 있는 옵션을 제가 찾지 못한 것인지, 아시는 분 계시면 도움 부탁 드립니다.
* 다음은 Ollama

* 다음은 LM Studio

* GPUs 세팅


GPU 세팅은 세/네번째 그림에 집어 넣었는데, 여기서 첫번째 옵션(Limit Model Offload to...)은 모델을 GPU VRAM에만 넣을지 공유 RAM에도 넣을지 정하는 것 같아서 껐습니다.
여기저기 메뉴 들춰보고 있는데, GPU/CUDA 관련 설정은 잘 못 찾겠네요...
아, 그럼 VRAM 사용량이 16GB중에 13GB라 LLM 전부 VRAM에 올라갔다고 생각했는데, VRAM은 남아 있지만 모델 일부는 RAM으로 올라간 것이었군요.
그럼, 모델 일부가 RAM으로 올라간 경우에는 추론을 CPU가 주도하게 되는 것으로 이해하면 되겠네요. 작은 모델로 다시 테스트 해보겠습니다.
답변 감사드립니다.