언녕하세요
현재 맥스튜디오 m4 max 128모델에
ollama, (qwen3-coder-next, gemma4:26b 등)을 올려두고
인터넷 100mbps
집pc 에서
클로드코드로 하다가
구독쓰다가 한도 차서
저 맥스튜디오를 로컬llm서버로 구동중입니다
그런데 너무 느려요
이런저런 테스트를 해봐야겠습니다만...
ollama-> vllm, lm studio 등으로 교체,
클로드를 맥튜디어의 로컬/로컬랜으로 옮겨본다거나...
다른 설정을 해줘야 할게 있을까요???
감사합니다
동일 하드웨어에서 양자화 기준도 모두 동일한 다른 분들 케이스보다 심각하게 느리신가요?
음 클로드로 작업하던 컨텍스트가 22메가 정도 더라구요(claude --resume 으로 확인한 세션에서 나오는 용량)
이래서 그런지...
어제밤에 시킨 코드 수정이 아직까지 돌아가요 14시간째...
올라마 기본으로 설치해서... ㅠ
옵션들을 찾아봐야겠네요
lmstudio는 더 느릴 겁니다. 올라마가 낫죠.
M5 로 가라는 계시인 듯 하네요.ㅎㅎ
으엇 ㅋㅋㅋ 명분이다!
일단 M5로 단순히 가는건 크게 차이 없나봐요.
---
로컬 LLM 돌릴 때 기준:
항목 체감 차이
llama.cpp 약 15~25%
MLX / Metal 약 20~30%
diffusion 20%+
감사합니다
지금 단순히 올라마로 하는중이라
현상황 token생성량 한번 체크해보고 진행해봐야겠어요
품질이 생각보다 마음에 안 들어서 지금은 로컬은 RAG, Reranker 정도만 돌리고 있습니다만.....
아 튜닝이 꼭필요한가보군요 찾아보겠습니다.
요런 말씀 한마디가 많은 힌트가 됩니다 감사합니다
기본 올라마로 코딩하려는게 문제인거 같아요
튜닝을 해보겠습니다!!
어쩔수 없습니다 ㅠㅠ 그리고 supergemma4 써보세요. 결과값이 정제 되어있지 않지만 기존 잼마보다 나오는 속도는 빠릅니다.
https://huggingface.co/Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2
조언 감사드립니다!!