요즘 그래픽카드 성능이 워낙 좋아서,
로컬 속도도 돌려 볼 만 합니다.
특히 미국 AI는 유료로 써도 이상하게 답변이 지체 되는 경우가 적지 않은데 반해,
로컬은 토큰을 뽑아 내는 속도 자체는 느리지만, 답변까지의 지연은 별로 없다 보니
아주 많은 양의 작업을 해야 할 경우가 아니라면... 쓸만 하다는 것입니다.
관건은... 컨텍스트 양인데요.
제 사양은 RX9070 16GB 에,
램은 64GB입니다.
27B 모델을 양자화한 용량은 13.5 정도 되고,
요즘 LLM은 이제 성능이 많이 좋아져서...
브램에 모델을 올리면...괜찮은 답변이 나옵니다.
문제는 모델이 지원하는 컨텍스트를 받치려면,
약 80GB 가까운 시스템 메모리가 필요하다는 것입니다.
브램에 모델을 올리고,
시스템 메모리로 컨텍스트 관리를 하는 것입니다.
제 경우 시스템이 사용하는 리소스와 브라우저, 여러 앱 등을 합치면
대략 24GB 정도를 쓰더군요.
그럼 40GB가 남지만, 시스템 안정성을 위해 이걸 다 쓸 수 없습니다.
결국 컨텍스트를 16K 또는 8K로 써야 하는데,
이 정도면....살짝 복잡한 질문 두번 또는 세번이면 다 씁니다.
전혀 지장 없이 쓰려면 128 RAM 이 필요하다는 얘깁니다.
이 정도면 아주아주 복잡한 작업이 아닌 대부분의 작업에 유용합니다.
요즘 로컬을 만지면서 컨텍스트를 늘리고 싶은데...
램 값 때문에... 전혀 접근 할 수가 없네요...ㄷㄷ;
컨텍스트는 시스템 메모리면 됩니다.
이걸 오프로드라고 합니다.
말씀하시는 글카램은 모델을 올리는 용량입니다.(넉넉하면 둘다 브램에, 아니면 제 말대로.)
글카 브램에 모델을 올려 놓고 추론을 합니다.
LM스튜디오나 올라마에 올려서 사용할 때
컨텍스트 용량 관리 설정을 보시면 이해하게 되실 겁니다.
맥 스튜디오는 모델 큰 걸 통합 메모리에 올릴 수 있어서 좋은 것이라,
모델 자체를 큰 것을 올릴 수 있다는 장점이 있지만,
컨텍스트는 또 별도로 메모리 용량이 필요합니다.
예를 들어 128B 맥 스튜디오가 있다고 치면,
제 글카에 올릴 수 있는 27B가 아니라 72B를 쓸 수 있습니다.
그런데 컨텍스트는 어차피 따로 용량 할당이 필요한 것이죠.
모델 메모리 용량 + 컨텍스트 메모리 용량.. 이렇게 따로 보시면 됩니다.