추론(inference) 모델은 메모리 사이즈가 성능의 핵심인 것 같습니다. : 클리앙

회사에서 받은 맥프로를 로컬 LLM 박스로 쓰면 어느정도 성능이 될까 궁금해서 실험해 봤습니다.

(본글은 AI 도움으로 작성했습니다)

몇가지 실험해본 결과로는 토큰 생성 속도는 CPU/GPU 성능보다는 VRAM(통합 메모리 포함) 영향이 큰듯합니다.

맥미니가 주로 쓰이는 이유가 이해가 가더군요. 큰 모델은 RDMA로 병렬로 연결하면 되니까 비싼 맥 스튜디오가 별로 필요가 없겠다는 생각이 들어요. CPU 사용량이 기껏해야 30-40% 수준입니다.

테스트 모델: Ollama GPT-OSS:20B
Mac mini 32GB → 20B 모델(quantized 20GB size model) 구동 충분할것으로 보임
16GB 메모리 → 현실적으로 무리

📊 테스트 결과

✅ MacBook Pro 16 / M4 Pro / 48GB

12-core CPU / 16-core GPU / 16-core Neural Engine
Memory bandwidth: 273 GB/s

total duration: 1m40.666695417s prompt eval count: 177 token(s) prompt eval duration: 427.47675ms prompt eval rate: 414.06 tokens/s eval count: 4681 token(s) eval duration: 1m37.666425717s eval rate: 47.93 tokens/s

➡️ 추론 속도 안정적, 실사용 가능 수준

⚠️ MacBook Pro 14 / M1 Pro / 16GB

8-core CPU / 14-core GPU / 16-core Neural Engine
Memory bandwidth: 200 GB/s

total duration: 1m38.976297541s prompt eval count: 437 token(s) prompt eval duration: 6.795836208s prompt eval rate: 64.30 tokens/s eval count: 182 token(s) eval duration: 1m31.760164121s eval rate: 1.98 tokens/s

➡️ 메모리 부족으로 eval 단계에서 병목 심각

🔎 결론

Inference 모델 = 메모리 싸움
연산 성능보다 VRAM/통합 메모리 크기가 실질적인 성능을 좌우
20B급 이상은 최소 32GB 권장, 16GB는 테스트용 수준

혹시 다른 맥(예: M3, M2 Ultra, Mac Studio)이나
Linux + GPU 환경에서 돌려보신 분 계시면 결과 공유 부탁드립니다.

맥프로 16 메모리 사용량 -- 도커 서비스를 여러개 돌려도 여유가 있네요.

Image 12-22-25 at 5.51 PM.png

맥북 에어 메모리 사용량 -- 아마도 디스크 케시로 겨우 동작하는듯.

Screenshot 2025-12-22 at 5.41.57 PM.png

AI당

후기 추론(inference) 모델은 메모리 사이즈가 성능의 핵심인 것 같습니다. 4

📊 테스트 결과

✅ MacBook Pro 16 / M4 Pro / 48GB

⚠️ MacBook Pro 14 / M1 Pro / 16GB

🔎 결론