Llama.cpp는 로컬에서 LLM을 구동하는 데 쓰이는 코어 프로그램입니다.
ollama 니 뭐니 하는것들은 전부 저걸 기반으로 사용하기 편하게 인터페이스를 붙힌거죠.
요즘 Gemma 4와 Qwen3.5 모델이 인기 있는데 저걸로 사양이 부족한 PC에서도 조금 더 큰 사이즈의 모델을 돌릴 수 있나 봅니다.
보통 성능이 보장되는 최대 양자화가 4비트 정도인데 제가 본 후기로는 Gemma 4 q4 31B 모델을 24기가 vram으로도 돌렸다고 하는군요.
KV 캐쉬 1/6로 줄여봐야 31b 모델 크기에서 1/10 차이도 못 만들어요