출처 : 마이크로소프트
마이크로소프트가 'Surface RTX Spark Dev Box'를 공개했습니다.
클라우드에 접속하지 않고 개발자의 책상 위에서 대형 AI 모델을 직접 실행할 수 있도록 설계된 소형 데스크톱 컴퓨터입니다.
마이크로소프트 빌드 2026에서 발표된 이 기기는 엔비디아의 블랙웰 아키텍처 기반 RTX Spark 프로세서와 128GB 통합 메모리를 탑재해 1페타플롭의 AI 연산 성능을 제공하며, 클라우드 API 호출 없이 1,200억 파라미터 이상의 AI 모델을 로컬에서 실행할 수 있습니다.
이 제품의 배경에는 AI 개발 비용 문제가 있습니다.
현재 많은 기업들은 파인튜닝, 추론 호출, 에이전틱 워크플로우 등에서 발생하는 예측하기 어려운 클라우드 GPU 청구서에 시달리고 있습니다.
마이크로소프트는 Dev Box를 통해 진정한 프런티어급 작업에만 클라우드를 사용하고 나머지는 로컬 하드웨어에서 처리하는 방식으로 이 문제를 해결하고자 합니다.
Azure로 수백억 달러의 매출을 올리는 마이크로소프트가 클라우드 의존도를 줄이는 하드웨어를 직접 내놓는다는 점에서 이례적인 전략적 전환이지만, 로컬에서 프로토타입을 개발한 개발자가 결국 확장 단계에서 Azure를 쓸 것이라는 판단이 깔려 있습니다.
기술적으로 핵심은 128GB 통합 메모리 구조입니다.
엔비디아 RTX Spark는 ARM 기반 CPU와 블랙웰 GPU를 하나의 칩으로 통합하고, CPU와 GPU가 128GB 메모리 풀을 함께 사용합니다.
고사양 게이밍 노트북의 GPU 메모리가 최대 24GB 수준인 것과 비교하면 차원이 다른 구성입니다.
10만 토큰 규모의 컨텍스트를 처리할 때 키-값 캐시만으로도 40~50GB를 소비할 수 있다는 점에서, 이 메모리 용량은 대형 모델을 실질적으로 운용하기 위한 최소 요건에 가깝습니다.
마이크로소프트는 이 아키텍처에 맞춰 Windows의 메모리 관리 로직과 스케줄러도 함께 최적화했습니다.
열 설계도 눈에 띕니다.
알루미늄 섀시 자체가 패시브 히트싱크 역할을 하며, 상단 패널은 금속 3D 프린팅 공법으로 제작됩니다.
덕분에 CNC 가공이나 사출 성형으로는 구현할 수 없는 복잡한 다방향 타공 구조를 구현해 냉각 효율을 높였습니다.
지속 열설계전력은 약 100와트로, 파인튜닝 작업을 밤새 돌려도 오픈 오피스에서 사용할 수 있을 수준의 저소음을 유지합니다.
소프트웨어 측면에서도 개발자 경험을 전면에 내세웠습니다.
다크 테마, 개발자 모드 활성화, PowerShell 7 기본 설정, GPU 패스스루와 CUDA를 포함한 WSL 2, Visual Studio Code·Git·Python·Node.js 등이 모두 사전 설치된 상태로 출시됩니다.
여기에 AI Toolkit, Windows ML, Microsoft Foundry 등 마이크로소프트 AI 스택과의 연동도 기본 제공됩니다.
애플 M4 Max 구성의 Mac Mini 역시 128GB 통합 메모리를 제공하지만, Dev Box는 PyTorch·TensorRT·llama.cpp·Hugging Face 등 AI·ML 생태계 도구 대부분이 최우선으로 최적화된 CUDA 기반 블랙웰 GPU를 탑재하고 있습니다.
클라우드 GPU 인스턴스에서 쓰던 코드와 라이브러리를 그대로 로컬에서 실행할 수 있다는 이식성은 애플 실리콘이 아직 따라오지 못하는 부분입니다.
Dev Box는 마이크로소프트가 구상하는 3단계 로컬 AI 하드웨어 전략의 중간에 해당합니다.
휴대성이 필요한 개발자를 위한 Surface Laptop Ultra, 1조 파라미터 규모의 프런티어 모델을 처리하는 DGX Station for Windows와 함께, 대부분의 개발 작업을 로컬에서 감당하는 역할을 맡습니다.
GitHub Copilot CLI에 추가되는 /fleet 기능은 이 구조를 실제로 구현하는 사례로, 클라우드 에이전트가 작업 복잡도를 판단해 적절한 하위 작업을 로컬 모델로 분배하는 방식으로 작동합니다.
가격은 아직 공개되지 않았으며, 미국에서 마이크로소프트닷컴 단독으로 올해 하반기 판매될 예정입니다.
https://www.microsoft.com/en-us/surface/devices/surface-rtx-spark-dev-box
겉으로는 <128GB 메모리에 300GB 대역폭> 이라 해서 그럴듯해 보이지만 그래픽카드 800GB~1TB 대비 30% 수준에 불과한 심각한 병목을 가진 물건입니다.
실제 대다수의 모델 설치해봐도 아웃풋이 7~20tok/s 밖에 안 나오기 때문에 코딩 등의 실무에는 못 씁니다. 시간이 걸리더라도 대형 모델을 직접 학습하고 테스트하려는 개인개발자나, 보안이 필수인 대기업 개발조직을 위한 것라고 생각하시면 됩니다.
로컬에 그래픽카드를 사용하는 경우에는 빠르긴 해도 결국 메모리 크기 문제로 대화 몇턴 겨우 가능한 수준으로 컨텍스트를 제한하거나, DRAM을 섞어쓰느라 spark 혹은 strix halo보다도 더 느려지거나, 몇배의 예산이 필요해지죠.
로컬AI가 아직은 채산성이 맞지 않지만, 그래도 로컬에 관심이 있다면 맥이나 이런 류를 고려해볼만 하다고 봅니다.
코딩 등을 목적으로 하는 경우에는 최대한 원형대로 쓰는 것이 낫지만 일반채팅이나 RAG, 비서 등을 돌리기에는 16~24GB 정도면 충분합니다. RTX 30 에만 올려도 QWEN3 급은 튜닝전 60~ 튜닝후 250tok/s 까지도 나와줍니다.
최근 프론티어 모델들은 모두 1M을 지원하지만 직전 세대를 기준으로 256K (GPT5.5도 아직 270K) 전후이므로 그것들 대비 큰 차이 없다고 말씀드린 겁니다.
하위 모델 사용은 필연적으로 오류와 디버깅 횟수 증가와 코드품질 저하를 피할 수 없기 때문입니다.