M3 Max 40GPU, 64GB - Deep Learning ? Plz stop.. : 클리앙

고객지원

© CLIEN.NET

MaClien

사용기 M3 Max 40GPU, 64GB - Deep Learning ? Plz stop.. 23

2024-06-29 12:48:16 수정일 : 2024-06-29 12:57:18 222.♡.133.231

ph.d티모

M1 air를 3년여간 터미널로 사용하다가, 구매하는 김에 조금 더 범용적으로 사용하려고 M3 Max를 구매했습니다.

이제야 시간이 나서 하나씩 테스트하다보니 표기 숫자 성능 수치와는 많이 다른 성능을 보여서 공유드립니다. ^^

복잡하게 비교하자면 끝도 없으니.. 단순모델 동일 데이터 동일 코드에서 gpu 사용률 풀로드 된 상태의 결과가 아래와 같습니다.

M3 Max -> train 1 epoch 약 48초

V100 -> train 1 epoch 약 16초

V100이 좋은 GPU도 아닌데 차이가 많이 납니다. 네트워크 레이어를 늘릴수록 학습시간도 지수적으로 올라가서 깊은 모델을 돌리는 것은 엄두도 안나구요. 야심차게 큰 공유 메모리로 LLM을 학습해보려고 했었는데.. 느려도 돌아는 갈테니까요.. ^^ (이렇게 느리면.. 의미가 없어지네요)

Conclusion

딥러닝을 위해 좋은 맥북을 산다 - 삐빅

맥북을 사기위해 딥러닝이라는 명분을 붙인다 - O

DeepLearning은 아직 팀쿡형님의 Metal보다 젠슨황형님의 Cuda와 함께합니다. 반복합니다.

잠시간의 로컬에서 테스트는 Air로도 충분합니다.

Discussion

자 이제... 맥북으로 딥러닝을 안돌리면.. M3 MAX 넌... M1 air와 활용상에 어떤 차이가 있지?

M3 MAX 더 좋은 활용방안 공유를 부탁드립니다.

ph.d티모 님의

댓글 • [23]

콜라맛홍삼

·

결론에서 웃고 깁니다… ㅋㅋ꙼̈ㅋ̊̈ㅋ̆̈
m3max쯤 되야 사파리로 유튜브도 보고 그러죠

.… 좋은(?) 활용방안이라고 생각합니다. ㅠㅠ

ph.d티모

·

@콜라맛홍삼님 m3max를 air처럼 쓰는 남자 그게 바로 나 ... (ㅂㄷㅂㄷㅂㄷㄷㅂ)

soveequai

·

그래서 m4 급조해서 나온거겠군요
m넘버링이 1,2 3,4 이렇게 나오는 듯 합니다

ph.d티모

·

@soveequai님 딥러닝 연구 개발에서는 성능 차이가 m4도 대안이 되기는 어려워 보입니다. 제 환경에서는 딥러닝 모델 학습시 metal 라이브러리 기준 NE를 사용안합니다. NE는 온보드 모델 추론용으로 보여집니다. (추측)

방송부서

·

아이맥 27 5K 2020에서 5개의 카메라로 총 용량 13시간 약 300GB 4K 60Hz HEVC 영상을 편집하다 보니 당시 아이맥에 8TB SSD 옵션 넣으면 ProRes 코덱의 위력으로 멀티캠 편집은 그냥 껌인데 말이죠.ㅠㅠ

허나 지금은 2TB밖에 안 되는 저장 공간을 아낄려고 CPU와 GPU를 혹사시켜 5개의 카메라가 찍은 4K 60Hz HEVC 코덱 그대로 동시에 플레이 시켜 멀티캠 영상 컷을 프레임 드롭을 감수하며 대충 골랐는데 이런 빡센 작업은 M3 MAX가 일을 아주 잘 할것 같습니다.
ㅎㅎ

그래도 멀티캠 편집 닫고 싱글뷰로 플레이하여 대충 컷을 고른것을 TRIM 편집을 할때는 프레임 드롭이 없어 정교하게 마무리를 질 수 있어서 참으로 다행입니다.ㅎㅎ

ph.d티모

·

@방송부서님 그래서 제가 유투브를 시작하려구요. 후...

vajra_

·

딥러닝 하시는 분들의 사용기가 없었는데 읽고나니 구매욕이 좀 사라지긴 합니다.ㅋ
m2에어로는 딥러닝은 커녕 머신러닝도 좀 복잡하면 40-50분씩 걸려서요, 걍 코랩으로.
그래도 그래픽 메모리 공유하는게 엄청난 이득이라서 400만원 이상 넘어간다면 윈트북+4090 조합으로도 못하는 것들이 맥북프로에서는 되더라구요(유틉~~).

ph.d티모

·

@건전지홀릭님 많은 고민을 해보세요. 그래픽 메모리 공유가 엄청난 이득이긴한데.. 일단 결과를 받을 수 있을 정도여야 그것도 이득인데..

오래걸림 = 거치해야함 = 왜맥북 = 맥스튜디옹 = 느림 = 데스크탑+4090+맥에어 = 맥북사고싶음 = 오래걸림

용돈주세요

·

로컬에서 작업하고 테스트 삼아 돌려본 다음에 잘 돌아가면 서버로 옮겨서 학습하는 용도로 간간히 사용중이에요.
사실 서버에서 구현하고 학습시키는 경우가 많긴한데 간간히 입출력 이미지나 다른 데이터들을 빠르게 확인해야하는 경우엔 로컬에서 돌려볼 수 있다는게 나름 장점이더라구요 ㅎㅎ
서버는 gui미지원이다보나 데이터 확인이 번거로워요 ㅜㅜ

ph.d티모

·

@용돈주세요님 서버 정책에 따라 다르긴할건데, 디버깅 모드로 돌리면.. 서버 상에서 동작하는 입출력이미지도 쉽게 뽑아보실 수.. 최근에 vscode extension중에 디버깅중 변수안에 들어있는 이미지를 바로 볼 수 있는 것도 있더라구요.

저는.. GPU 다 돌려놓고.. 갑자기 생각나는 코드 잠시 돌려보는 정도로.. max를 air처럼 사용중입니다. ㅋㅋㅋㅋ

용돈주세요

·

@ph.d티모님 저는 vscode 사용하지않고 vim 으로 해서요..ㅜㅜ 사내 서버정책이 되는게 거의 없어서 맘편히 vim으로 작업하고 반드시 중간결과를 확인하며 실험해야할 때는 주피터 사용합니다.. 이것도 사내망 내에서만 가능해서 번거롭네요 ㅜㅜ

사이어인

·

딥러닝보다는 인코딩 필요한 영상작업 많이 하시는 분들께 필요하지 않을까 싶네요.
아니면 요새 위스키 라는 앱을 통해서 윈도게임 컨버팅을 지원하거든요....
스팀게임 머신으로 써보시는것도 좋을 듯 합니다?!
덧) 맥북m3프로 18G 짜리에서도 팰월드 성능 중상급으로 잘 돌아갔습니다.
m3맥스면 더 빡센 게임도 옵션 타협없이 돌아갈듯 하네요??

ph.d티모

·

@사이어인님 활용방안 게임머신 감사합니다. 도..도즈언.

사과를 좋아해

·

혹시 mlx 패키지도 사용해 보셨나요??

저도 맥으로 사용하려다 보니까 번거로운게 너무 많고, 성능도 떨어져서 포기하려던 시기에 저 패키지를 알게 되었습니다.

저걸 쓰면 맥에서도 성능이 더 올라갈 것 같긴한데, 커뮤니티가 너무 작아서 불편한 점이 있을것 같긴하빈다.

ph.d티모

·

@사과를 좋아해님 오, mlx는 애플 실리콘에서 cpu와 gpu간에 함수 연산에 유리한 core를 가변적으로 사용하게 해주는 numpy와 유사한 array framework 라네요. m칩의 통합메모리간에 이동이 빠른 장점이 있으니 이 프레임워크는 버그만 발생하지 않으면 유의미하게 속도 향상은 있을듯하네요. 한번 사용해보고 후기 올리겠습니다.

좋은 정보 공유 감사합니다.

사과를 좋아해

·

@ph.d티모님 네네 저도 지금 업무 바쁘지 않을때는 mlx 조금씩 시도해보려고 하고 있긴 합니다. mlx에 이미 llm 관련된 모델도 있긴 한 것 같습니다. 저도 해보면서 공유할 만한게 있으면 후기 작성 해볼게요.

딥러닝 한다고 굳이 프로를 선물 받았는데 결국에는 서버 PC를 쓰고 있긴하네요.

굄성

·

학습은 사실상 힘들고 통합 메모리 덕분에 GPU 램 많이 필요한 모델이 노트북에서 실행 가능하다는것에 의미를 두어야 합니다...

ph.d티모

·

@굄성님 그렇습니다.

JHwan

·

맥 스튜디오의 경우 VRAM이 매우 크다는 효과로 거대언어모델을 돌릴수 있다(inference)는 측면에서 다소 관심을 받고 있긴 한데...
학습 측면에서는 퍼포먼스 차이가 좀 크죠... ㅠㅠ cuda도 안돼서 실질적으로 모델 학습에 쓰기는 좀 애매하고요...

그래도 개인이 200B 모델 돌릴 수 있는 거의 유일한 대안이긴 합니다...

p.s.
V100이 그래도 2천짜리인데... M2Max와 가격차이만 해도 3배가 아니라 5배 이상 날 듯 하네요 ㅠㅠ
비교하시기는 좀
제가 지금 고민하고 있는 M2Ultra 풀옵션 (9백만원대) 로 비교하면 1/2 가격에 퍼포먼스 딱 1.5배 차이 정도면 그래도 가성비는 적정해 보이긴 합니다.

ph.d티모

·

@JHwan님 크~ 여기 딥러닝 하시는 분들이 계시네요. 앞으로 많은 정보 공유 부탁드립니다. ㅎㅎ

V100이 가격이 비싸긴한데요. 아시겠지만, 비디오 메모리가가 많이 필요하지 않은 학습을 시킬경우, V100보다 RTX4090이 학습이 더 빠릅니다. RTX4090의 가격은 300만원대고..

그리고 수치상 퍼포먼스 계산이 하나도 맞지 않으니... 고려하시라고 올린 글입니다. 저도 M3max 사기전에 수치상으로 계산해보고, 나쁘지 않겠는데? 하고 사보니 실제 학습 성능은 수치와 꽤 큰 차이를 보입니다.

제 경험은 "울트라리스크 할아버지가 오셔도 딥러닝을 아직 m칩으로 로컬로 학습시키는 것이 의미없다" 였습니다. 학습이 아닌, 로컬 테스트용일 경우도 부로..900만원짜리 맥북에서 느리게 돌릴 이유가 있나요.. 그냥 4090 두장 박은 데스크탑을 로컬테스트용 서버 구축하여.. 돌리는 것이 합리적이라 생각됩니다.

형들... 그거 아니야.. 멈춰.. 내가 해봤다구..
하지만.. 맥북을 구매하기 위한.. 명분이라면 ok. 진행해!

JHwan

·

@ph.d티모님
4090 2way면 VRAM 48GB이고 학습에는 매우 좋을 수 있죠... ㅠㅠ
근데 제가 돌리는 LLM 중에 48GB로 (양자화 안한 상태에서) 돌릴 수 있는 모델은 절반도 안... 됩니다 ㅠㅠ
(지금 3090 2way 쓰는 중인데... 한계가 큽니다. 이론상 양자화 없이, 통상 24B 모델까진 돌릴 수 있겠네요)

근데 70B 이상 모델이 성능이 좋...아요 ㅠㅠ

Usta

·

자 이제 사이버펑크 2077을 울트라 옵으로 돌리면서 넷러너(해커?)가 되어보시죠....

고릴라인형

·

애플에서 새 머신러닝 오픈소스를 공개했던데 그거도 m칩으로는 힘들려나요...

이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고

개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책

© • CLIEN.NET

보안 강화를 위한 이메일 인증

안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
개인정보에서도 이메일 인증을 할 수 있습니다.

지금 이메일 인증하기

등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.