
이 기사는 썬더볼트 5와 RDMA 지원 덕분에 여러 대의 Mac을 하나의 AI 연산 클러스터처럼 묶어 쓰는 방식이 훨씬 실용적이 됐다는 내용입니다. Apple이 macOS Tahoe 26.2와 MLX 쪽에서 관련 기능을 강화했고, 실제로 유튜버 Jeff Geerling이 M3 Ultra Mac Studio 4대를 연결해 테스트한 결과, 대형 LLM을 다룰 때 꽤 의미 있는 성능 향상이 확인됐다고 전합니다.
핵심은 RDMA(Remote Direct Memory Access) 입니다. 이 기능이 있으면 한 Mac이 다른 Mac의 메모리를 CPU 부담을 크게 늘리지 않고 직접 읽을 수 있어서, 여러 대의 Mac 메모리를 사실상 하나의 큰 풀처럼 활용할 수 있습니다. 기사 속 4대 구성에서는 총 1.5TB 메모리를 묶어 쓰는 효과가 났다고 설명합니다.
또한 썬더볼트 대역폭도 중요합니다. 기존 Thunderbolt 4 기반 연결은 최대 40Gb/s였는데, Thunderbolt 5는 최대 80Gb/s까지 올라가서 Mac 간 데이터 이동이 더 빨라졌습니다. 이 덕분에 한 대의 Mac 메모리 한계를 넘는 초대형 LLM도 더 현실적으로 돌릴 수 있게 됐다는 게 기사 요지입니다.
실험에서는 RDMA를 지원하는 Exo와, 지원하지 않는 llama.cpp를 비교했는데, 노드를 늘릴수록 Exo 쪽이 더 잘 확장됐습니다. 예를 들어 Qwen3 235B 테스트에서는 단일 노드에선 큰 차이가 없었지만, 2대와 4대로 늘렸을 때 Exo가 더 높은 토큰 처리 속도를 보였습니다. DeepSeek V3.1 671B 같은 대형 모델에서도 비슷한 경향이 나왔다고 합니다.
다만 장점만 있는 건 아닙니다. 이런 구성은 기사 기준으로 약 4만 달러 수준이라 개인 취미용으로는 부담이 크고, Thunderbolt 5 클러스터는 스위치 방식이 아니라 데이지체인 구조라 확장성이나 지연 측면의 한계도 있습니다. 또 프리릴리스 소프트웨어와 일부 도구의 안정성 문제도 언급됩니다.
한 줄로 정리하면,
“썬더볼트 5 + RDMA 덕분에 여러 대의 Mac을 묶어 거대한 메모리 공간처럼 활용할 수 있게 되었고, 그래서 대형 AI 모델 실행에 Mac 클러스터가 전보다 훨씬 쓸만해졌다”는 기사입니다.
= 관련링크.
- https://news.hada.io/topic?id=25195
- https://youtu.be/bSq54AMAH0I
옛날 맥 서버모델처럼요.
애플은 소비자가 원하면 안 해주더군요.
OpenClaw 같은거 돌릴 때 보면 Activation parameter 크기 좀만 커지면 prefill을 5분씩 연산하고 답을 시작하기 시작합니다 ㅠㅠ TP로 분할 해도 4개 해서 2배 빨라지는 정도이지 않을까... 싶네요...