참고로 제 맥북프로 사양은 M5 32GB입니다.
LM Studio 쓰시는 분들은 Settings(좌측하단 톱니바퀴) → Runtime → Check for updates를 통해 LM Studio MLX를 v1.6.0으로 업데이트 해 주시면 Gemma 4 MLX를 돌리실 수 있습니다. Gemma 4 출시 이후 GGUF 포맷은 가능했으나 이번 MLX 지원으로 애플의 메탈을 활용한 성능 극대화가 LM Studio 상에서 가능하게 되었습니다.
제가 쓰는 Gemma 4 모델은 26B 파라미터 4-bit 양자화 모델입니다. Gemma 4 26B에서 파생한 fine-tuning 모델 선택지가 몇가지 있겠습니다만 저는 mlx-community/gemma-4-26b-a4b-it-4bit를 쓰고 있으며 LM Studio상에서 컨텍스트 윈도우를 256K(262,144토큰) 최대로 쓰고 초당 약 42토큰 정도의 출력 속도 나옵니다. 256K 토큰은 책 두 권에 해당하는 컨텍스트(맥락)입니다. 메모리 사용량은 약 16GB입니다만 컨텍스트가 늘어나면서 얼마나 급증하는지는 지켜봐야 할 사안이겠습니다. (단, 최근 발표된 구글의 TurboQuant 기술이 AI 실 사용에 구현되면 이 컨텍스트 메모리 마저도 1/6로 줄어들게 되겠습니다.)
현재 메모리 여유가 있으신 분(64GB 이상)은 Gemma 4 31B 모델도 사용해 봄 직 합니다. 속도냐(26B) 퀄리티냐(31B)의 미묘한 비교를 통해 결정하시면 되겠습니다.
Qwen 같은 쟁쟁한 모델들도 최근 많이 나왔습니다만 저는 철 지난 GPT-OSS-20B 모델만 써오다 이번에 Gemma 4를 사용하면서 좋은 인상을 받았습니다.
로컬 AI를 쓰는 이유는 옵시디언과 통합한 RAG입니다.
위 모든 경우에는 1. 4비트 양자화 모델; 2. MLX라는 전제가 붙습니다.
**구동할 수 있는 것**과 **쾌적한 것**의 체감상 차이는 사용하시는 용도와 사용량(컨텍스트)에 따라 많은 변수가 있습니다. 다운 받아서 실제 사용을 가정하여 사용해보시고 비교를 해 보시기를 권해드립니다.
lm studio MLX 런타임 업뎃 전에 사용했던 gguf 형식보다 0.3tok/s 빠르네요... 심지어 몇턴 대화 나눈, KV 캐시랑 컨텍스트 쌓였던 세션임에도 불구하고!!ㅋㅋㅋ
젬마4 31b 8비트 gguf 형식이 n턴 째 출력에서 12.23tok/s 속도냈었는데,
동일 스레드의 다음 턴(n+1)에 mlx형식 젬마(직전 턴까지의 gguf와 동일하게 31b 8bit) 로드해서 대화했는데 오히려 n턴보다 n+1턴의 출력토큰이 더 많았는데도(1032tok vs. 1325tok) n+1 턴에 출력했던 mlx형식은 12.53tok/s가 나오네요. 막 엄청나게 유의미한 차이는 아니지만 그래두~~ㅋㅋㅋ
(댓글 처음쓸때 숫자를 잘못썼네요 !! 보신 분들 죄송합니다!)
GPT 4.1 보다는 말귀를 좀 못알아드는 감이있지만 32기가램에서 이정도 성능과 반응속도면 만족 스럽더군요
저도 gemma 4 나오기 전까지는 GPT oss 20b 모델로 사용했었네요
뭐가 잘못된건지. 초당 50tok/s 근방으로 나오는거 같은데, mlx 는 30~40tok/s 으로 나올때도 있고 같게 나올때도 있고
mlx 가 오히려 옵션설정하는것도 별로 없는거 같고...
https://huggingface.co/Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2
이 모델을 써보세요. LLM Studio 로는 안 돌아가고,
MLX + WebUI 기반으로 돌리면 되는데, 꽤 괜찮습니다.
돌리니 기존 모델들이 50tok/s 나왔는데 이건 58tok/s 정도 나오네요.
저는 RTX A5000 24GB GPU 여러대를 NVLINK로 2장씩 연결해서 쓰고 있는데 나중에 맥스튜디오에 M5 Max나 M5 Ultra칩 버전이 나오면 램업한 모델이 오히려 가성비가 더 좋을거 같은 느낌입니다.
근데 좀 더 써봐야겠지만 일단 답변 퀄리티는 진짜 괜찮긴 합니다ㅎㅎ
M5pro 64ram 맥북프로 16
둘다 돌려봤습니다
맥스가 얼추 70%정도 더 빠르고 응답의 퀄이 좋아보이는(느낌일수있음) 상황이네요
오리지널 모델로 gemm4 26b,31b 돌렸을때는 아직 아쉬운듯했는데
mlx 적용되서 그런지 26b 는 총알같이 대답하네요
두 기종모두다요
두대를 나란히 창열고 동일질문 해보니 차이가 있는걸 느끼는정도네요
좋은 사용처를 알아봐야겠습니다.
좋은 정보 감사합니다.