CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·주식한당 ·아이포니앙 ·일본산당 ·방탄소년당 ·MaClien ·자전거당 ·안드로메당 ·개발한당 ·이륜차당 ·소셜게임한당 ·AI당 ·나스당 ·가상화폐당 ·소시당 ·위스키당 ·젬워한당 ·오른당 ·노젓는당 ·PC튜닝한당 ·스팀한당 ·패스오브엑자일당 ·냐옹이당 ·바다건너당 ·육아당 ·와인마신당 ·골프당 ·클다방 ·디아블로당 ·야구당 ·IoT당 ·키보드당 ·찰칵찍당 ·달린당 ·리눅서당 ·날아간당 ·3D메이킹 ·X세대당 ·ADHD당 ·AI그림당 ·사과시계당 ·배드민턴당 ·농구당 ·블랙베리당 ·곰돌이당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·캠핑간당 ·문명하셨당 ·클래시앙 ·콘솔한당 ·요리한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·개판이당 ·동숲한당 ·날아올랑 ·전기자전거당 ·e북본당 ·갖고다닌당 ·이브한당 ·패셔니앙 ·물고기당 ·도시어부당 ·FM한당 ·맛있겠당 ·포뮬러당 ·걸그룹당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·KARA당 ·꼬들한당 ·덕질한당 ·어학당 ·가죽당 ·레고당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·영화본당 ·MTG한당 ·소리당 ·노키앙 ·적는당 ·방송한당 ·그림그린당 ·소풍간당 ·심는당 ·라즈베리파이당 ·품앱이당 ·리듬탄당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·축구당 ·나혼자산당 ·스타한당 ·파도탄당 ·퐁당퐁당 ·테니스친당 ·테스트당 ·빨콩이당 ·공대시계당 ·여행을떠난당 ·터치패드당 ·트윗당 ·창업한당 ·VR당 ·시계찬당 ·WebOs당 ·WOW당 ·윈폰이당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

MaClien

맥당이야기 LM Studio에서 이제 Gemma 4 MLX 구동 가능합니다 17

3
2026-04-15 12:10:50 수정일 : 2026-04-15 12:11:42 59.♡.10.22
crazyblue

참고로 제 맥북프로 사양은 M5 32GB입니다.

LM Studio 쓰시는 분들은 Settings(좌측하단 톱니바퀴) → Runtime → Check for updates를 통해 LM Studio MLX를 v1.6.0으로 업데이트 해 주시면 Gemma 4 MLX를 돌리실 수 있습니다. Gemma 4 출시 이후 GGUF 포맷은 가능했으나 이번 MLX 지원으로 애플의 메탈을 활용한 성능 극대화가 LM Studio 상에서 가능하게 되었습니다.

제가 쓰는 Gemma 4 모델은 26B 파라미터 4-bit 양자화 모델입니다. Gemma 4 26B에서 파생한 fine-tuning 모델 선택지가 몇가지 있겠습니다만 저는 mlx-community/gemma-4-26b-a4b-it-4bit를 쓰고 있으며 LM Studio상에서 컨텍스트 윈도우를 256K(262,144토큰) 최대로 쓰고 초당 약 42토큰 정도의 출력 속도 나옵니다. 256K 토큰은 책 두 권에 해당하는 컨텍스트(맥락)입니다. 메모리 사용량은 약 16GB입니다만 컨텍스트가 늘어나면서 얼마나 급증하는지는 지켜봐야 할 사안이겠습니다. (단, 최근 발표된 구글의 TurboQuant 기술이 AI 실 사용에 구현되면 이 컨텍스트 메모리 마저도 1/6로 줄어들게 되겠습니다.)

현재 메모리 여유가 있으신 분(64GB 이상)은 Gemma 4 31B 모델도 사용해 봄 직 합니다. 속도냐(26B) 퀄리티냐(31B)의 미묘한 비교를 통해 결정하시면 되겠습니다.

Qwen 같은 쟁쟁한 모델들도 최근 많이 나왔습니다만 저는 철 지난 GPT-OSS-20B 모델만 써오다 이번에 Gemma 4를 사용하면서 좋은 인상을 받았습니다.

로컬 AI를 쓰는 이유는 옵시디언과 통합한 RAG입니다.

crazyblue님의 게시글 댓글
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [17]
펑키펭귄
IP 70.♡.138.142
04-15 2026-04-15 12:37:00
·
RAM 24GB 이면 어떤 모델이 좋을까요?
crazyblue
IP 121.♡.104.205
04-15 2026-04-15 14:20:53
·
@펑키펭귄님 LLM들을 다양하게 써 보진 못해서 시야가 넓지는 않습니다만 제 경험에 한정된 의견을 드립니다. 24GB 메모리의 경우 Gemma 4 26B를 구동할 수는 있겠으나 컨텍스트의 양에 따라 메모리 압박이 분명 있을 것이라고 생각됩니다. 마찬가지로 Qwen 3.5 27B도 좋은 모델이라고 생각되지만 메모리 사용량은 약 15GB로 빠듯하게 구동이 가능하겠습니다. 여유있게 로컬 LLM을 활용하시려면 Qwen 3.5 9B도 좋은 대체제입니다.
위 모든 경우에는 1. 4비트 양자화 모델; 2. MLX라는 전제가 붙습니다.
**구동할 수 있는 것**과 **쾌적한 것**의 체감상 차이는 사용하시는 용도와 사용량(컨텍스트)에 따라 많은 변수가 있습니다. 다운 받아서 실제 사용을 가정하여 사용해보시고 비교를 해 보시기를 권해드립니다.
타환
IP 221.♡.125.138
04-15 2026-04-15 12:44:58
·
허걱 새벽까지만해도 나중을 기약하라는 메세지만 뜨고 안됐었는데...!!! 그새 업뎃이됐나보네요!!! 얼른 mlx로도 젬마4랑 얘기해봐야겠네요!! 감사합니당!!
타환
IP 221.♡.125.138
04-15 2026-04-15 16:45:32 / 수정일: 2026-04-15 16:57:10
·
ㅠㅠ 아까 써보고 왔는데... 역시 실리콘칩셋은 MLX 형식을 써야하는게 여러모로 합리적인 것 같단 생각이 개인적으로 듭니다!!
lm studio MLX 런타임 업뎃 전에 사용했던 gguf 형식보다 0.3tok/s 빠르네요... 심지어 몇턴 대화 나눈, KV 캐시랑 컨텍스트 쌓였던 세션임에도 불구하고!!ㅋㅋㅋ
젬마4 31b 8비트 gguf 형식이 n턴 째 출력에서 12.23tok/s 속도냈었는데,
동일 스레드의 다음 턴(n+1)에 mlx형식 젬마(직전 턴까지의 gguf와 동일하게 31b 8bit) 로드해서 대화했는데 오히려 n턴보다 n+1턴의 출력토큰이 더 많았는데도(1032tok vs. 1325tok) n+1 턴에 출력했던 mlx형식은 12.53tok/s가 나오네요. 막 엄청나게 유의미한 차이는 아니지만 그래두~~ㅋㅋㅋ
(댓글 처음쓸때 숫자를 잘못썼네요 !! 보신 분들 죄송합니다!)
페이즈
IP 121.♡.239.17
04-15 2026-04-15 16:30:14 / 수정일: 2026-04-15 16:31:16
·
mlx-community/gemma-4-26b-a4b-it-4bit 저도 사용하는 모델인데 가장성능 잘나오는것 같습니다.
GPT 4.1 보다는 말귀를 좀 못알아드는 감이있지만 32기가램에서 이정도 성능과 반응속도면 만족 스럽더군요
저도 gemma 4 나오기 전까지는 GPT oss 20b 모델로 사용했었네요
happyWorld
IP 182.♡.106.250
04-15 2026-04-15 16:51:45 / 수정일: 2026-04-16 07:38:27
·
26B gguf, mlx 둘다 해봤는데 맥이 예전 모델이라서 그런지 비슷하거나 오히려 gguf 가 더 초당 토큰수가 잘 나오는군요.
뭐가 잘못된건지. 초당 50tok/s 근방으로 나오는거 같은데, mlx 는 30~40tok/s 으로 나올때도 있고 같게 나올때도 있고
mlx 가 오히려 옵션설정하는것도 별로 없는거 같고...
모어린
IP 211.♡.147.122
04-15 2026-04-15 16:56:39
·
24GB 에서 돌아갈지는 모르겠는데,
https://huggingface.co/Jiunsong/supergemma4-26b-uncensored-mlx-4bit-v2
이 모델을 써보세요. LLM Studio 로는 안 돌아가고,
MLX + WebUI 기반으로 돌리면 되는데, 꽤 괜찮습니다.
happyWorld
IP 218.♡.232.21
04-15 2026-04-15 17:46:02 / 수정일: 2026-04-15 17:46:18
·
@모어린님 LM Studio 에서 돌아가던데요. 모델검색해보니 나와서 설치하고
돌리니 기존 모델들이 50tok/s 나왔는데 이건 58tok/s 정도 나오네요.
모어린
IP 211.♡.147.122
04-16 2026-04-16 08:09:19
·
@happyWorld님 아 지금 저도 다시 해보니 되네요~
SIMCGA
IP 124.♡.137.209
04-15 2026-04-15 17:39:08 / 수정일: 2026-04-15 17:45:00
·
메모리 통합칩, 뉴럴 가속기, MLX, RDMA덕에 램업한 M5 이상 맥들이 제대로 각광을 받고 있네요.
저는 RTX A5000 24GB GPU 여러대를 NVLINK로 2장씩 연결해서 쓰고 있는데 나중에 맥스튜디오에 M5 Max나 M5 Ultra칩 버전이 나오면 램업한 모델이 오히려 가성비가 더 좋을거 같은 느낌입니다.
OLIVER
IP 140.♡.29.2
04-16 2026-04-16 00:46:38
·
m1max 64gb인데, 젬마4 26b gguf로는 46~49tps 정도로 쓸만하게 나왔거든요? 그래서 mlx 믿고 31b 돌려봤는데 9.8tps... 처참하네요.
근데 좀 더 써봐야겠지만 일단 답변 퀄리티는 진짜 괜찮긴 합니다ㅎㅎ
D - DAY ™ ☆
IP 183.♡.9.110
04-16 2026-04-16 09:17:44
·
@OLIVER님 악.. .같은 사양 이시군요... 혹시 작성해주신 것중 젬마4 26b gguf 랑 31b 중 추천한다면 어느쪽을 추천해주고 싶으세요?
OLIVER
IP 140.♡.29.2
04-16 2026-04-16 09:40:43 / 수정일: 2026-04-16 10:43:22
·
@D - DAY ™ ☆님 아직 코딩을 해본건 아니고, 일반적인 프롬프트로 비교해보면 별로 차이 없는거 같습니다. 어차피 로컬모델은 한계가 명확하니까 퀄리티가 중요한건 원래 하던대로 상용llm서비스를 계속 쓰고, 로컬은 그냥 속도 빠른 쪽 쓰는게 나을거 같단 생각이긴 합니다.
D - DAY ™ ☆
IP 59.♡.241.190
04-16 2026-04-16 09:42:16
·
@OLIVER님 감사합니다. 그럼 젬마4 좀더 낮은녀석이랑 비교해 보고 빠릿한 녀석으로 써야 겠군요.
crazyblue
IP 221.♡.44.179
04-16 2026-04-16 10:41:24
·
@OLIVER님 31B (MLX) 저도 6.6tok/sec 나옵니다. 말씀하신대로 출력물의 퀄리티는 좋은데 제아무리 좋아봤자 상용 서비스에 비할 바가 아니구요. 더해서 저의 로컬 LLM 용도는 생산물의 퀄리티보다 속도로 저울질하기 때문에 자주 사용하지는 않을 듯 하네요.
약쟁이
IP 116.♡.64.219
04-16 2026-04-16 13:15:36
·
M4max 64ram 맥스튜디오
M5pro 64ram 맥북프로 16

둘다 돌려봤습니다
맥스가 얼추 70%정도 더 빠르고 응답의 퀄이 좋아보이는(느낌일수있음) 상황이네요

오리지널 모델로 gemm4 26b,31b 돌렸을때는 아직 아쉬운듯했는데
mlx 적용되서 그런지 26b 는 총알같이 대답하네요
두 기종모두다요

두대를 나란히 창열고 동일질문 해보니 차이가 있는걸 느끼는정도네요
좋은 사용처를 알아봐야겠습니다.
좋은 정보 감사합니다.
삭제 되었습니다.
Scalpel
IP 59.♡.108.78
04-16 2026-04-16 19:01:58
·
Dense 모델은 사용하기 쉽지 않아서 26B MoE로 만족 중입니다 :)
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.