안녕하세요,
현재 M1 Pro 맥북프로 32GB RAM을 개인용 노트북으로 사용중입니다. 평소 가벼운 사용은 차고 넘치지만 회사에서는 computer vision 쪽만 하다보니 LLM과 Diffusion 모델로 이것저것 만들어보고 싶어서 맥북을 바꿔보려고 합니다. 현재 맥북으로 LLaMA 7B를 로컬로 사용해보니 실시간 대화를 하기에는 딜레이가 좀 있어 답답하더군요..!
미국에서 구매하는데 세금포함 $3000 미만으로 맞추려다보니 아래 두가지 구성 중 하나를 고민하고 있습니다. 주 사용은 일반 적인 노트북 사용과 local LLM과 Diffusion 모델을 사용하여 이것저것 어플리케이션을 만들기 입니다. 당연히 모델 training은 생각안하고 있고, inference 만 사용하여 여러 applicaiton을 만들거나 pruning 등을 연구해 보고싶습니다. 제가 서칭해서 알아본 정보들인데 어떻게 생각하시나요? LLM에 대해 더 아시는 분들께서 두 옵션중 추천해 주시면 감사하겠습니다.
1. M4 pro - 14-core CPU 20-core GPU and 16 core Neural Engine with 48 GB ram (273GB/s memory)
장점:
- 2번에 비해 12GB 많은 메모리 = 조금 더 큰 모델을 사용가능 및 diffusion 사용에도 범용성이 높아짐
단점:
- Memory Bandwidth가 두배 가까이 차이남 (inference 속도가 느림)
-GPU core 가 두배 가까이 차이남 (inference 속도가 느림)
2. M4 Max - 14-core CPU 32-core GPU and 16 core Neural Engine with 36 GB ram (410/s memory bandwidth)
장점:
- 1번에 비해 GPU core가 많고 Memory Bandwidth 가 빨라 inference 가 빠름
단점:
48GB 메모리는 0.75배 까지 VRAM에 할당 가능한데, 36 GB 메모리는 약 0.66배 정도의 메모리만 VRAM에 할당 가능 -복잡한 7B 모델 사용시 메모양의 부족으로 느려짐(?)
정리해보니 12GB 메모리 차이와 (48GB와 36GB), 그에 따른 가용 VRAM, 그리고 Memory Bandwidth 차이가 관건인데, 이중에 뭐가 더 제 용도에 조금이라도 맞을지 추천 해주시면 감사하겠습니다!
----------------------------------------------------------------------------------------------------------------------------------------
저와 비슷한 분이 계실까하여 reddit에서 이 글관련 베스트 댓글을 가져와 봤습니다.
전 옵션 1으로 갈 것 같습니다!!
맥미니로 가면 M4 pro 64GB 해도 2000밖에 안 나오는데요
아마 맥스튜디오 기다리시면 M4 max 64기가도 가능할 것 같고요 (울트나 나올때까지 기다려야 해서 이건 좀 오래걸릴수도..)
맥미니는 pro만 가능한것 같은데, M4 max vs pro (2x memory bandwidth 포함)에 따른 inference 속도차이는 거의 없을까요?
m1 max m2 ultra m3 max 벤치 보시고 감내할 수 있는 속도인지 판단하시면 될 것 같습니다.
실 사용 경험으로는 본격적으로 chatgpt를 대체하기에는 prompt processing속도가 너무 느려서 추천할만한 선택지는 아니었습니다.
주신 링크를 들어가보니 M1 MAX가 8B FP16 로드시 프롬프트가 ~355 token/s 답변이 ~18 token/s 인데 제가 알기론 실시간 챗은 8~15 token/s 정도면 되는 것으로 아는데, 실제로 사용해보면 이정도가 안나온다고 생각하면 될까요?
8b모델 쓰시고 컨텍스트 많이 안 넣으실거면 괜찮으실 것 같기도 합니다.
https://www.clien.net/service/board/cm_mac/18754985CLIEN
로컬에서 올라마 통해서 돌리는 LLM... 도 동작시켜보았습니다만,
뭐하나 돌리면 30~35초.. 품질도 chatGPT보다 떨어지고..
그래서.. 그냥 chatGPT 돌립니다;;