CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·주식한당 ·아이포니앙 ·MaClien ·방탄소년당 ·일본산당 ·자전거당 ·안드로메당 ·개발한당 ·이륜차당 ·골프당 ·걸그룹당 ·바다건너당 ·클다방 ·소셜게임한당 ·소시당 ·AI당 ·나스당 ·육아당 ·키보드당 ·어학당 ·퐁당퐁당 ·물고기당 ·노젓는당 ·냐옹이당 ·와인마신당 ·오른당 ·사과시계당 ·위스키당 ·IoT당 ·방송한당 ·PC튜닝한당 ·축구당 ·스팀한당 ·AI그림당 ·날아간당 ·3D메이킹 ·X세대당 ·ADHD당 ·배드민턴당 ·야구당 ·농구당 ·블랙베리당 ·곰돌이당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·캠핑간당 ·문명하셨당 ·클래시앙 ·콘솔한당 ·요리한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·디아블로당 ·개판이당 ·동숲한당 ·날아올랑 ·전기자전거당 ·e북본당 ·갖고다닌당 ·이브한당 ·패셔니앙 ·도시어부당 ·FM한당 ·맛있겠당 ·포뮬러당 ·젬워한당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·KARA당 ·꼬들한당 ·덕질한당 ·가죽당 ·레고당 ·리눅서당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·영화본당 ·MTG한당 ·소리당 ·노키앙 ·적는당 ·찰칵찍당 ·그림그린당 ·소풍간당 ·심는당 ·패스오브엑자일당 ·라즈베리파이당 ·품앱이당 ·리듬탄당 ·달린당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·나혼자산당 ·스타한당 ·파도탄당 ·테니스친당 ·테스트당 ·빨콩이당 ·공대시계당 ·여행을떠난당 ·터치패드당 ·트윗당 ·가상화폐당 ·창업한당 ·VR당 ·시계찬당 ·WebOs당 ·WOW당 ·윈폰이당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

새로운소식

마이크로소프트, 마이크로소프트, 로컬에서 대형 AI 모델 실행하는 개발자용 PC 공개 14

2026-06-04 16:41:51 수정일 : 2026-06-04 16:45:33 182.♡.24.60
NewsClien

다운로드.png 다운로드 (1).png 출처 : 마이크로소프트

마이크로소프트가 'Surface RTX Spark Dev Box'를 공개했습니다.

클라우드에 접속하지 않고 개발자의 책상 위에서 대형 AI 모델을 직접 실행할 수 있도록 설계된 소형 데스크톱 컴퓨터입니다. 


마이크로소프트 빌드 2026에서 발표된 이 기기는 엔비디아의 블랙웰 아키텍처 기반 RTX Spark 프로세서와 128GB 통합 메모리를 탑재해 1페타플롭의 AI 연산 성능을 제공하며, 클라우드 API 호출 없이 1,200억 파라미터 이상의 AI 모델을 로컬에서 실행할 수 있습니다.


이 제품의 배경에는 AI 개발 비용 문제가 있습니다. 

현재 많은 기업들은 파인튜닝, 추론 호출, 에이전틱 워크플로우 등에서 발생하는 예측하기 어려운 클라우드 GPU 청구서에 시달리고 있습니다. 

마이크로소프트는 Dev Box를 통해 진정한 프런티어급 작업에만 클라우드를 사용하고 나머지는 로컬 하드웨어에서 처리하는 방식으로 이 문제를 해결하고자 합니다. 

Azure로 수백억 달러의 매출을 올리는 마이크로소프트가 클라우드 의존도를 줄이는 하드웨어를 직접 내놓는다는 점에서 이례적인 전략적 전환이지만, 로컬에서 프로토타입을 개발한 개발자가 결국 확장 단계에서 Azure를 쓸 것이라는 판단이 깔려 있습니다.


기술적으로 핵심은 128GB 통합 메모리 구조입니다. 

엔비디아 RTX Spark는 ARM 기반 CPU와 블랙웰 GPU를 하나의 칩으로 통합하고, CPU와 GPU가 128GB 메모리 풀을 함께 사용합니다. 

고사양 게이밍 노트북의 GPU 메모리가 최대 24GB 수준인 것과 비교하면 차원이 다른 구성입니다. 

10만 토큰 규모의 컨텍스트를 처리할 때 키-값 캐시만으로도 40~50GB를 소비할 수 있다는 점에서, 이 메모리 용량은 대형 모델을 실질적으로 운용하기 위한 최소 요건에 가깝습니다. 

마이크로소프트는 이 아키텍처에 맞춰 Windows의 메모리 관리 로직과 스케줄러도 함께 최적화했습니다.


열 설계도 눈에 띕니다. 

알루미늄 섀시 자체가 패시브 히트싱크 역할을 하며, 상단 패널은 금속 3D 프린팅 공법으로 제작됩니다. 

덕분에 CNC 가공이나 사출 성형으로는 구현할 수 없는 복잡한 다방향 타공 구조를 구현해 냉각 효율을 높였습니다. 

지속 열설계전력은 약 100와트로, 파인튜닝 작업을 밤새 돌려도 오픈 오피스에서 사용할 수 있을 수준의 저소음을 유지합니다.


소프트웨어 측면에서도 개발자 경험을 전면에 내세웠습니다. 

다크 테마, 개발자 모드 활성화, PowerShell 7 기본 설정, GPU 패스스루와 CUDA를 포함한 WSL 2, Visual Studio Code·Git·Python·Node.js 등이 모두 사전 설치된 상태로 출시됩니다. 

여기에 AI Toolkit, Windows ML, Microsoft Foundry 등 마이크로소프트 AI 스택과의 연동도 기본 제공됩니다.


애플 M4 Max 구성의 Mac Mini 역시 128GB 통합 메모리를 제공하지만, Dev Box는 PyTorch·TensorRT·llama.cpp·Hugging Face 등 AI·ML 생태계 도구 대부분이 최우선으로 최적화된 CUDA 기반 블랙웰 GPU를 탑재하고 있습니다. 

클라우드 GPU 인스턴스에서 쓰던 코드와 라이브러리를 그대로 로컬에서 실행할 수 있다는 이식성은 애플 실리콘이 아직 따라오지 못하는 부분입니다.


Dev Box는 마이크로소프트가 구상하는 3단계 로컬 AI 하드웨어 전략의 중간에 해당합니다.

휴대성이 필요한 개발자를 위한 Surface Laptop Ultra, 1조 파라미터 규모의 프런티어 모델을 처리하는 DGX Station for Windows와 함께, 대부분의 개발 작업을 로컬에서 감당하는 역할을 맡습니다. 

GitHub Copilot CLI에 추가되는 /fleet 기능은 이 구조를 실제로 구현하는 사례로, 클라우드 에이전트가 작업 복잡도를 판단해 적절한 하위 작업을 로컬 모델로 분배하는 방식으로 작동합니다.


가격은 아직 공개되지 않았으며, 미국에서 마이크로소프트닷컴 단독으로 올해 하반기 판매될 예정입니다.

https://www.microsoft.com/en-us/surface/devices/surface-rtx-spark-dev-box



출처 : https://venturebeat.com/infrastructure/microsoft-debuts-surface-rtx-spark-dev-box-to-run-large-ai-models-without-cloud-costs
NewsClien 님의 게시글 댓글
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [14]
nowjigi
IP 58.♡.239.170
06-04 2026-06-04 16:49:29
·
10만원도 넘겠네요..
민토수다삼
IP 222.♡.55.54
06-04 2026-06-04 16:59:05
·
@nowjigi님 에이, 20만원은 할겁니다. 램값이랑 많이 올라서요.
오히려종아
IP 61.♡.55.124
06-04 2026-06-04 18:20:54
·
@민토수다삼님 10만원 넘으면 부담되는데 .. 할부 되겠죠 아마 ?
맹꽁이
IP 211.♡.234.199
06-04 2026-06-04 17:11:55
·
XBOX 신형 같은 디자인 느낌...
Mr.UN
IP 14.♡.43.15
06-04 2026-06-04 17:19:57
·
DGX 스파크의 치명적 약점인 대역폭 273GB가 600GB가 되었다는 소문이 돌았었는데, 실제로는 300GB로 약 10% 향상에 불과하다는 것이 탐스하드웨어의 결론입니다.

겉으로는 <128GB 메모리에 300GB 대역폭> 이라 해서 그럴듯해 보이지만 그래픽카드 800GB~1TB 대비 30% 수준에 불과한 심각한 병목을 가진 물건입니다.

실제 대다수의 모델 설치해봐도 아웃풋이 7~20tok/s 밖에 안 나오기 때문에 코딩 등의 실무에는 못 씁니다. 시간이 걸리더라도 대형 모델을 직접 학습하고 테스트하려는 개인개발자나, 보안이 필수인 대기업 개발조직을 위한 것라고 생각하시면 됩니다.
도장
IP 222.♡.114.172
06-04 2026-06-04 20:27:48
·
@Mr.UN님 MoE 모델의 경우에는 40~50tok/s 도 뽑아줍니다. https://www.reddit.com/r/LocalLLaMA/comments/1sf182p/gemma_4_on_localai_vulkan_vs_rocm/?tl=ko

로컬에 그래픽카드를 사용하는 경우에는 빠르긴 해도 결국 메모리 크기 문제로 대화 몇턴 겨우 가능한 수준으로 컨텍스트를 제한하거나, DRAM을 섞어쓰느라 spark 혹은 strix halo보다도 더 느려지거나, 몇배의 예산이 필요해지죠.

로컬AI가 아직은 채산성이 맞지 않지만, 그래도 로컬에 관심이 있다면 맥이나 이런 류를 고려해볼만 하다고 봅니다.
Mr.UN
IP 14.♡.43.15
06-04 2026-06-04 20:41:32
·
@도장님 KV캐시 필요량을 70%이상 줄이는 Mamba 관련 기술이 적용된 모델 - 그라나이트 4.0 등은 상용수준으로 컨텍스트 설정해도 무리 없이 잘 돌아갑니다.
코딩 등을 목적으로 하는 경우에는 최대한 원형대로 쓰는 것이 낫지만 일반채팅이나 RAG, 비서 등을 돌리기에는 16~24GB 정도면 충분합니다. RTX 30 에만 올려도 QWEN3 급은 튜닝전 60~ 튜닝후 250tok/s 까지도 나와줍니다.
도장
IP 222.♡.114.172
06-04 2026-06-04 20:58:55
·
@Mr.UN님 어떤 크기 모델의 어떤 양자화에 어느정도 크기의 컨텍스트를 상용수준이라고 말씀하시는건지 궁금하네요.
Mr.UN
IP 14.♡.43.15
06-04 2026-06-04 21:25:11
·
@도장님 mamba 관련 모델들을 보면 보통 128K~256K를 지원하며 값을 키우더라도 요구 메모리가 크게 늘어나지 않습니다. 구체적으로는 ibm그라나이트, 미스트랄의 코드스트랄, 잠바2 등의 모델이 존재합니다.

최근 프론티어 모델들은 모두 1M을 지원하지만 직전 세대를 기준으로 256K (GPT5.5도 아직 270K) 전후이므로 그것들 대비 큰 차이 없다고 말씀드린 겁니다.
도장
IP 222.♡.114.172
06-04 2026-06-04 21:28:56
·
@Mr.UN님 네... 모델 자체야 물론 지원하고 그래서 제가 spark/strix halo를 옹호한거지만, 16GB 환경에서는 어떤 크기 모델에 어떤 양자화로 128K 를 쓸수 있는지 궁금해서 질문 드렸습니다.
Mr.UN
IP 14.♡.43.15
06-04 2026-06-04 21:33:15
·
@도장님 당시 십여가지 모델들을 올리고 테스트를 했었는데 정확히 기억하는 건, 3090 24GB에 QWEN 3 coder 30B Q4를 올리고 128K 세팅하면 21.8GB 정도 차지했었습니다.
도장
IP 222.♡.114.172
06-04 2026-06-04 21:55:23
·
@Mr.UN님 그렇군요. 모델 선택을 30B Q4 정도로 한정하면 스파크를 사는건 답이 아니겠네요. 스파크는 GPT-OSS-120B 같은 좀더 큰 크기의 MoE 모델을 꽤 쓸만한 속도로 쓸수 있는게 장점이겠지요. 더 빠른 속도가 그립다면 경량 모델 하나쯤 같이 로딩해 둘수도 있구요.
Mr.UN
IP 14.♡.43.15
06-04 2026-06-04 22:56:44
·
@도장님 네 맞습니다. 다만, 코딩의 경우 코드 품질과 효율 측면을 냉정히 판단했을 때, 회사 보안 정책상 프론티어모델을 쓰지 못 하는 것이 아니라면 GPT5.5 와 Opus 4.8 대신 로컬 코더를 사용할 이유는 거의 없지 않나 생각합니다.
하위 모델 사용은 필연적으로 오류와 디버깅 횟수 증가와 코드품질 저하를 피할 수 없기 때문입니다.
도장
IP 222.♡.114.172
00:25 2026-06-05 00:25:11 / 수정일: 2026-06-05 00:25:28
·
@Mr.UN님 네... 회사에서 돈을 쏟아부어서 GLM 이나 Kimi 같은 1T급 모델까지 돌려주고 있는데 아무래도 그런 용도로는 한계가 있더군요. 그래도 로컬의 강점도 명확해서, 분석이라던지 스크립팅이라던지 간단한 코딩 등등 잘 쓰고는 있습니다 ㅎㅎ
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.