회사에서 받은 맥프로를 로컬 LLM 박스로 쓰면 어느정도 성능이 될까 궁금해서 실험해 봤습니다.
(본글은 AI 도움으로 작성했습니다)
몇가지 실험해본 결과로는 토큰 생성 속도는 CPU/GPU 성능보다는 VRAM(통합 메모리 포함) 영향이 큰듯합니다.
맥미니가 주로 쓰이는 이유가 이해가 가더군요. 큰 모델은 RDMA로 병렬로 연결하면 되니까 비싼 맥 스튜디오가 별로 필요가 없겠다는 생각이 들어요. CPU 사용량이 기껏해야 30-40% 수준입니다.
-
테스트 모델: Ollama GPT-OSS:20B
-
Mac mini 32GB → 20B 모델(quantized 20GB size model) 구동 충분할것으로 보임
-
16GB 메모리 → 현실적으로 무리
📊 테스트 결과
✅ MacBook Pro 16 / M4 Pro / 48GB
-
12-core CPU / 16-core GPU / 16-core Neural Engine
- Memory bandwidth: 273 GB/s
total duration: 1m40.666695417s
prompt eval count: 177 token(s)
prompt eval duration: 427.47675ms
prompt eval rate: 414.06 tokens/s
eval count: 4681 token(s)
eval duration: 1m37.666425717s
eval rate: 47.93 tokens/s
➡️ 추론 속도 안정적, 실사용 가능 수준
⚠️ MacBook Pro 14 / M1 Pro / 16GB
-
8-core CPU / 14-core GPU / 16-core Neural Engine
- Memory bandwidth: 200 GB/s
total duration: 1m38.976297541s
prompt eval count: 437 token(s)
prompt eval duration: 6.795836208s
prompt eval rate: 64.30 tokens/s
eval count: 182 token(s)
eval duration: 1m31.760164121s
eval rate: 1.98 tokens/s
➡️ 메모리 부족으로 eval 단계에서 병목 심각
🔎 결론
-
Inference 모델 = 메모리 싸움
-
연산 성능보다 VRAM/통합 메모리 크기가 실질적인 성능을 좌우
-
20B급 이상은 최소 32GB 권장, 16GB는 테스트용 수준
혹시 다른 맥(예: M3, M2 Ultra, Mac Studio)이나
Linux + GPU 환경에서 돌려보신 분 계시면 결과 공유 부탁드립니다.
맥프로 16 메모리 사용량 -- 도커 서비스를 여러개 돌려도 여유가 있네요.

맥북 에어 메모리 사용량 -- 아마도 디스크 케시로 겨우 동작하는듯.

CPU 성능과 GPU성능이 서로 격이 맞아야 제 성능이 나오는 것처럼,
AI 추론 성능도 비슷하게 보면 됩니다.
말씀하신 메모리 부족하면 오프로드 하여 많이 느려집니다.
그렇다고 GPU 성능의 중요성이 브램 보다 크게 못하냐면.. 그것도 아닙니다.
그럼에도 굳이~ 우선 순위를 따지려면 동 세대내에서 브램 많은 것이 더 중요하긴 합니다.
메모리만 확보되면 역시 그 다음은 GPU 성능.
아키텍쳐 > vram수순이 아닐까 합니다
하드웨어 기반 양자화를 하게되면 vram이 아무리 높아도 쓸모 없어지더라구요