LM Studio에서 이제 Gemma 4 MLX 구동 가능합니다 : 클리앙

고객지원

© CLIEN.NET

MaClien

맥당이야기 LM Studio에서 이제 Gemma 4 MLX 구동 가능합니다 17

2026-04-15 12:10:50 수정일 : 2026-04-15 12:11:42 59.♡.10.22

crazyblue

참고로 제 맥북프로 사양은 M5 32GB입니다.

LM Studio 쓰시는 분들은 Settings(좌측하단 톱니바퀴) → Runtime → Check for updates를 통해 LM Studio MLX를 v1.6.0으로 업데이트 해 주시면 Gemma 4 MLX를 돌리실 수 있습니다. Gemma 4 출시 이후 GGUF 포맷은 가능했으나 이번 MLX 지원으로 애플의 메탈을 활용한 성능 극대화가 LM Studio 상에서 가능하게 되었습니다.

제가 쓰는 Gemma 4 모델은 26B 파라미터 4-bit 양자화 모델입니다. Gemma 4 26B에서 파생한 fine-tuning 모델 선택지가 몇가지 있겠습니다만 저는 mlx-community/gemma-4-26b-a4b-it-4bit를 쓰고 있으며 LM Studio상에서 컨텍스트 윈도우를 256K(262,144토큰) 최대로 쓰고 초당 약 42토큰 정도의 출력 속도 나옵니다. 256K 토큰은 책 두 권에 해당하는 컨텍스트(맥락)입니다. 메모리 사용량은 약 16GB입니다만 컨텍스트가 늘어나면서 얼마나 급증하는지는 지켜봐야 할 사안이겠습니다. (단, 최근 발표된 구글의 TurboQuant 기술이 AI 실 사용에 구현되면 이 컨텍스트 메모리 마저도 1/6로 줄어들게 되겠습니다.)

현재 메모리 여유가 있으신 분(64GB 이상)은 Gemma 4 31B 모델도 사용해 봄 직 합니다. 속도냐(26B) 퀄리티냐(31B)의 미묘한 비교를 통해 결정하시면 되겠습니다.

Qwen 같은 쟁쟁한 모델들도 최근 많이 나왔습니다만 저는 철 지난 GPT-OSS-20B 모델만 써오다 이번에 Gemma 4를 사용하면서 좋은 인상을 받았습니다.

로컬 AI를 쓰는 이유는 옵시디언과 통합한 RAG입니다.

crazyblue

님의

댓글 • [17]

펑키펭귄

·

RAM 24GB 이면 어떤 모델이 좋을까요?

crazyblue

·

@님 LLM들을 다양하게 써 보진 못해서 시야가 넓지는 않습니다만 제 경험에 한정된 의견을 드립니다. 24GB 메모리의 경우 Gemma 4 26B를 구동할 수는 있겠으나 컨텍스트의 양에 따라 메모리 압박이 분명 있을 것이라고 생각됩니다. 마찬가지로 Qwen 3.5 27B도 좋은 모델이라고 생각되지만 메모리 사용량은 약 15GB로 빠듯하게 구동이 가능하겠습니다. 여유있게 로컬 LLM을 활용하시려면 Qwen 3.5 9B도 좋은 대체제입니다.
위 모든 경우에는 1. 4비트 양자화 모델; 2. MLX라는 전제가 붙습니다.
**구동할 수 있는 것**과 **쾌적한 것**의 체감상 차이는 사용하시는 용도와 사용량(컨텍스트)에 따라 많은 변수가 있습니다. 다운 받아서 실제 사용을 가정하여 사용해보시고 비교를 해 보시기를 권해드립니다.

타환

·

허걱 새벽까지만해도 나중을 기약하라는 메세지만 뜨고 안됐었는데...!!! 그새 업뎃이됐나보네요!!! 얼른 mlx로도 젬마4랑 얘기해봐야겠네요!! 감사합니당!!

타환

·

ㅠㅠ 아까 써보고 왔는데... 역시 실리콘칩셋은 MLX 형식을 써야하는게 여러모로 합리적인 것 같단 생각이 개인적으로 듭니다!!
lm studio MLX 런타임 업뎃 전에 사용했던 gguf 형식보다 0.3tok/s 빠르네요... 심지어 몇턴 대화 나눈, KV 캐시랑 컨텍스트 쌓였던 세션임에도 불구하고!!ㅋㅋㅋ
젬마4 31b 8비트 gguf 형식이 n턴 째 출력에서 12.23tok/s 속도냈었는데,
동일 스레드의 다음 턴(n+1)에 mlx형식 젬마(직전 턴까지의 gguf와 동일하게 31b 8bit) 로드해서 대화했는데 오히려 n턴보다 n+1턴의 출력토큰이 더 많았는데도(1032tok vs. 1325tok) n+1 턴에 출력했던 mlx형식은 12.53tok/s가 나오네요. 막 엄청나게 유의미한 차이는 아니지만 그래두~~ㅋㅋㅋ
(댓글 처음쓸때 숫자를 잘못썼네요 !! 보신 분들 죄송합니다!)

페이즈

·

mlx-community/gemma-4-26b-a4b-it-4bit 저도 사용하는 모델인데 가장성능 잘나오는것 같습니다.
GPT 4.1 보다는 말귀를 좀 못알아드는 감이있지만 32기가램에서 이정도 성능과 반응속도면 만족 스럽더군요
저도 gemma 4 나오기 전까지는 GPT oss 20b 모델로 사용했었네요

happyWorld

·

26B gguf, mlx 둘다 해봤는데 맥이 예전 모델이라서 그런지 비슷하거나 오히려 gguf 가 더 초당 토큰수가 잘 나오는군요.
뭐가 잘못된건지. 초당 50tok/s 근방으로 나오는거 같은데, mlx 는 30~40tok/s 으로 나올때도 있고 같게 나올때도 있고
mlx 가 오히려 옵션설정하는것도 별로 없는거 같고...

모어린

·

24GB 에서 돌아갈지는 모르겠는데,
https://huggingface.co/Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2
이 모델을 써보세요. LLM Studio 로는 안 돌아가고,
MLX + WebUI 기반으로 돌리면 되는데, 꽤 괜찮습니다.

happyWorld

·

@모어린님 LM Studio 에서 돌아가던데요. 모델검색해보니 나와서 설치하고
돌리니 기존 모델들이 50tok/s 나왔는데 이건 58tok/s 정도 나오네요.

모어린

·

@happyWorld님 아 지금 저도 다시 해보니 되네요~

SIMCGA

·

메모리 통합칩, 뉴럴 가속기, MLX, RDMA덕에 램업한 M5 이상 맥들이 제대로 각광을 받고 있네요.
저는 RTX A5000 24GB GPU 여러대를 NVLINK로 2장씩 연결해서 쓰고 있는데 나중에 맥스튜디오에 M5 Max나 M5 Ultra칩 버전이 나오면 램업한 모델이 오히려 가성비가 더 좋을거 같은 느낌입니다.

OLIVER

·

m1max 64gb인데, 젬마4 26b gguf로는 46~49tps 정도로 쓸만하게 나왔거든요? 그래서 mlx 믿고 31b 돌려봤는데 9.8tps... 처참하네요.
근데 좀 더 써봐야겠지만 일단 답변 퀄리티는 진짜 괜찮긴 합니다ㅎㅎ

D - DAY ™ ☆

·

@OLIVER님 악.. .같은 사양 이시군요... 혹시 작성해주신 것중 젬마4 26b gguf 랑 31b 중 추천한다면 어느쪽을 추천해주고 싶으세요?

OLIVER

·

@D - DAY ™ ☆님 아직 코딩을 해본건 아니고, 일반적인 프롬프트로 비교해보면 별로 차이 없는거 같습니다. 어차피 로컬모델은 한계가 명확하니까 퀄리티가 중요한건 원래 하던대로 상용llm서비스를 계속 쓰고, 로컬은 그냥 속도 빠른 쪽 쓰는게 나을거 같단 생각이긴 합니다.

D - DAY ™ ☆

·

@OLIVER님 감사합니다. 그럼 젬마4 좀더 낮은녀석이랑 비교해 보고 빠릿한 녀석으로 써야 겠군요.

crazyblue

·

@OLIVER님 31B (MLX) 저도 6.6tok/sec 나옵니다. 말씀하신대로 출력물의 퀄리티는 좋은데 제아무리 좋아봤자 상용 서비스에 비할 바가 아니구요. 더해서 저의 로컬 LLM 용도는 생산물의 퀄리티보다 속도로 저울질하기 때문에 자주 사용하지는 않을 듯 하네요.

약쟁이

·

M4max 64ram 맥스튜디오
M5pro 64ram 맥북프로 16

둘다 돌려봤습니다
맥스가 얼추 70%정도 더 빠르고 응답의 퀄이 좋아보이는(느낌일수있음) 상황이네요

오리지널 모델로 gemm4 26b,31b 돌렸을때는 아직 아쉬운듯했는데
mlx 적용되서 그런지 26b 는 총알같이 대답하네요
두 기종모두다요

두대를 나란히 창열고 동일질문 해보니 차이가 있는걸 느끼는정도네요
좋은 사용처를 알아봐야겠습니다.
좋은 정보 감사합니다.

삭제 되었습니다.

Scalpel

·

Dense 모델은 사용하기 쉽지 않아서 26B MoE로 만족 중입니다 :)

이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고

개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책

© • CLIEN.NET

보안 강화를 위한 이메일 인증

안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
개인정보에서도 이메일 인증을 할 수 있습니다.

지금 이메일 인증하기

등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.