M1 air를 3년여간 터미널로 사용하다가, 구매하는 김에 조금 더 범용적으로 사용하려고 M3 Max를 구매했습니다.
이제야 시간이 나서 하나씩 테스트하다보니 표기 숫자 성능 수치와는 많이 다른 성능을 보여서 공유드립니다. ^^
복잡하게 비교하자면 끝도 없으니.. 단순모델 동일 데이터 동일 코드에서 gpu 사용률 풀로드 된 상태의 결과가 아래와 같습니다.
M3 Max -> train 1 epoch 약 48초
V100 -> train 1 epoch 약 16초
V100이 좋은 GPU도 아닌데 차이가 많이 납니다. 네트워크 레이어를 늘릴수록 학습시간도 지수적으로 올라가서 깊은 모델을 돌리는 것은 엄두도 안나구요. 야심차게 큰 공유 메모리로 LLM을 학습해보려고 했었는데.. 느려도 돌아는 갈테니까요.. ^^ (이렇게 느리면.. 의미가 없어지네요)
Conclusion
딥러닝을 위해 좋은 맥북을 산다 - 삐빅
맥북을 사기위해 딥러닝이라는 명분을 붙인다 - O
DeepLearning은 아직 팀쿡형님의 Metal보다 젠슨황형님의 Cuda와 함께합니다. 반복합니다.
잠시간의 로컬에서 테스트는 Air로도 충분합니다.
Discussion
자 이제... 맥북으로 딥러닝을 안돌리면.. M3 MAX 넌... M1 air와 활용상에 어떤 차이가 있지?
M3 MAX 더 좋은 활용방안 공유를 부탁드립니다.
m3max쯤 되야 사파리로 유튜브도 보고 그러죠
.… 좋은(?) 활용방안이라고 생각합니다. ㅠㅠ
m넘버링이 1,2 3,4 이렇게 나오는 듯 합니다
허나 지금은 2TB밖에 안 되는 저장 공간을 아낄려고 CPU와 GPU를 혹사시켜 5개의 카메라가 찍은 4K 60Hz HEVC 코덱 그대로 동시에 플레이 시켜 멀티캠 영상 컷을 프레임 드롭을 감수하며 대충 골랐는데 이런 빡센 작업은 M3 MAX가 일을 아주 잘 할것 같습니다.
ㅎㅎ
그래도 멀티캠 편집 닫고 싱글뷰로 플레이하여 대충 컷을 고른것을 TRIM 편집을 할때는 프레임 드롭이 없어 정교하게 마무리를 질 수 있어서 참으로 다행입니다.ㅎㅎ
m2에어로는 딥러닝은 커녕 머신러닝도 좀 복잡하면 40-50분씩 걸려서요, 걍 코랩으로.
그래도 그래픽 메모리 공유하는게 엄청난 이득이라서 400만원 이상 넘어간다면 윈트북+4090 조합으로도 못하는 것들이 맥북프로에서는 되더라구요(유틉~~).
오래걸림 = 거치해야함 = 왜맥북 = 맥스튜디옹 = 느림 = 데스크탑+4090+맥에어 = 맥북사고싶음 = 오래걸림
사실 서버에서 구현하고 학습시키는 경우가 많긴한데 간간히 입출력 이미지나 다른 데이터들을 빠르게 확인해야하는 경우엔 로컬에서 돌려볼 수 있다는게 나름 장점이더라구요 ㅎㅎ
서버는 gui미지원이다보나 데이터 확인이 번거로워요 ㅜㅜ
저는.. GPU 다 돌려놓고.. 갑자기 생각나는 코드 잠시 돌려보는 정도로.. max를 air처럼 사용중입니다. ㅋㅋㅋㅋ
아니면 요새 위스키 라는 앱을 통해서 윈도게임 컨버팅을 지원하거든요....
스팀게임 머신으로 써보시는것도 좋을 듯 합니다?!
덧) 맥북m3프로 18G 짜리에서도 팰월드 성능 중상급으로 잘 돌아갔습니다.
m3맥스면 더 빡센 게임도 옵션 타협없이 돌아갈듯 하네요??
저도 맥으로 사용하려다 보니까 번거로운게 너무 많고, 성능도 떨어져서 포기하려던 시기에 저 패키지를 알게 되었습니다.
저걸 쓰면 맥에서도 성능이 더 올라갈 것 같긴한데, 커뮤니티가 너무 작아서 불편한 점이 있을것 같긴하빈다.
좋은 정보 공유 감사합니다.
딥러닝 한다고 굳이 프로를 선물 받았는데 결국에는 서버 PC를 쓰고 있긴하네요.
학습 측면에서는 퍼포먼스 차이가 좀 크죠... ㅠㅠ cuda도 안돼서 실질적으로 모델 학습에 쓰기는 좀 애매하고요...
그래도 개인이 200B 모델 돌릴 수 있는 거의 유일한 대안이긴 합니다...
p.s.
V100이 그래도 2천짜리인데... M2Max와 가격차이만 해도 3배가 아니라 5배 이상 날 듯 하네요 ㅠㅠ
비교하시기는 좀
제가 지금 고민하고 있는 M2Ultra 풀옵션 (9백만원대) 로 비교하면 1/2 가격에 퍼포먼스 딱 1.5배 차이 정도면 그래도 가성비는 적정해 보이긴 합니다.
V100이 가격이 비싸긴한데요. 아시겠지만, 비디오 메모리가가 많이 필요하지 않은 학습을 시킬경우, V100보다 RTX4090이 학습이 더 빠릅니다. RTX4090의 가격은 300만원대고..
그리고 수치상 퍼포먼스 계산이 하나도 맞지 않으니... 고려하시라고 올린 글입니다. 저도 M3max 사기전에 수치상으로 계산해보고, 나쁘지 않겠는데? 하고 사보니 실제 학습 성능은 수치와 꽤 큰 차이를 보입니다.
제 경험은 "울트라리스크 할아버지가 오셔도 딥러닝을 아직 m칩으로 로컬로 학습시키는 것이 의미없다" 였습니다. 학습이 아닌, 로컬 테스트용일 경우도 부로..900만원짜리 맥북에서 느리게 돌릴 이유가 있나요.. 그냥 4090 두장 박은 데스크탑을 로컬테스트용 서버 구축하여.. 돌리는 것이 합리적이라 생각됩니다.
형들... 그거 아니야.. 멈춰.. 내가 해봤다구..
하지만.. 맥북을 구매하기 위한.. 명분이라면 ok. 진행해!
4090 2way면 VRAM 48GB이고 학습에는 매우 좋을 수 있죠... ㅠㅠ
근데 제가 돌리는 LLM 중에 48GB로 (양자화 안한 상태에서) 돌릴 수 있는 모델은 절반도 안... 됩니다 ㅠㅠ
(지금 3090 2way 쓰는 중인데... 한계가 큽니다. 이론상 양자화 없이, 통상 24B 모델까진 돌릴 수 있겠네요)
근데 70B 이상 모델이 성능이 좋...아요 ㅠㅠ