"TPU보다 성능 높다"…MS 차세대 AI 가속기 '마이아 200' 공개 뉴스1
MS 엔드투엔드 자체설계…TSMC 3nm 공정기반 차세대 칩
"FP4 기준 트레이니움 3배 성능에 구글 TPU 상회"
Maia 200: 추론을 위해 설계된 AI 가속기 (크롬 번역)

오늘, 저희는 AI 토큰 생성의 경제성을 획기적으로 개선하도록 설계된 혁신적인 추론 가속기인 Maia 200을 소개하게 되어 자랑스럽습니다. Maia 200은 AI 추론의 강자입니다. TSMC의 3nm 공정으로 제작된 이 가속기는 네이티브 FP8/FP4 텐서 코어, 7TB/s의 속도를 제공하는 216GB HBM3e와 272MB의 온칩 SRAM을 갖춘 재설계된 메모리 시스템, 그리고 대규모 모델에 빠르고 효율적으로 데이터를 공급하는 데이터 이동 엔진을 탑재하고 있습니다. 이러한 특징 덕분에 Maia 200은 모든 하이퍼스케일러 중 가장 뛰어난 성능을 자랑하는 자체 개발 실리콘으로, FP4 성능은 3세대 Amazon Trainium보다 3배, FP8 성능은 Google의 7세대 TPU보다 우수합니다. 또한 Maia 200은 Microsoft가 지금까지 배포한 추론 시스템 중 가장 효율적이며, 현재 Microsoft가 보유한 최신 하드웨어보다 가격 대비 성능이 30% 더 뛰어납니다.
Maia 200은 마이크로소프트의 이기종 AI 인프라의 일부로서, OpenAI의 최신 GPT-5.2 모델을 비롯한 다양한 모델을 지원하여 Microsoft Foundry와 Microsoft 365 Copilot에 비용 대비 성능 우위를 제공합니다. Microsoft Superintelligence 팀은 Maia 200을 활용하여 합성 데이터 생성 및 강화 학습을 통해 차세대 자체 개발 모델을 개선할 예정입니다. 합성 데이터 파이프라인 사용 사례에서 Maia 200의 고유한 설계는 고품질의 도메인별 데이터를 생성하고 필터링하는 속도를 높여, 더욱 신선하고 정확한 신호를 후속 학습에 제공할 수 있도록 지원합니다.
Maia 200은 아이오와주 디모인 인근의 미국 중부 데이터센터 지역에 배포되었으며, 애리조나주 피닉스 인근의 미국 서부 3 데이터센터 지역에도 곧 배포될 예정이고, 이후에도 지속적으로 확장될 것입니다. Maia 200은 Azure와 완벽하게 통합되며, Maia 200용 모델 구축 및 최적화를 위한 모든 도구를 포함하는 Maia SDK를 미리 보기로 제공하고 있습니다. 이 SDK에는 PyTorch 통합, Triton 컴파일러 및 최적화된 커널 라이브러리, Maia의 저수준 프로그래밍 언어 접근 등 다양한 기능이 포함되어 있습니다. 이를 통해 개발자는 필요에 따라 세밀한 제어를 할 수 있을 뿐 아니라, 다양한 하드웨어 가속기 환경에서 모델을 쉽게 이식할 수 있습니다.
AI 추론을 위해 설계되었습니다.
TSMC의 최첨단 3나노미터 공정으로 제작된 Maia 200 칩은 1400억 개 이상의 트랜지스터를 탑재하고 있으며, 대규모 AI 워크로드에 최적화되어 있으면서도 가격 대비 효율적인 성능을 제공합니다. Maia 200은 이러한 두 가지 측면 모두에서 탁월한 성능을 발휘하도록 설계되었습니다. 저정밀 연산을 사용하는 최신 모델에 맞춰 설계된 Maia 200 칩은 750W SoC TDP 범위 내에서 4비트 정밀도(FP4)에서 10페타플롭스 이상, 8비트 정밀도(FP8)에서 5페타플롭스 이상의 성능을 제공합니다. 실질적으로 Maia 200은 현재 가장 큰 규모의 모델을 무리 없이 실행할 수 있으며, 향후 더욱 큰 규모의 모델을 실행할 수 있는 충분한 여유 공간을 확보하고 있습니다.
결정적으로, FLOPS(플롭스) 성능만이 AI 속도 향상의 유일한 요소는 아닙니다. 데이터 공급 또한 매우 중요합니다. Maia 200은 재설계된 메모리 서브시스템을 통해 이러한 병목 현상을 해결합니다. Maia 200의 메모리 서브시스템은 정밀도가 높은 데이터 타입, 특수 DMA 엔진, 온칩 SRAM, 그리고 고대역폭 데이터 전송을 위한 특수 NoC 패브릭을 중심으로 설계되어 토큰 처리량을 향상시킵니다.
최적화된 AI 시스템
시스템 수준에서 Maia 200은 표준 이더넷을 기반으로 하는 혁신적인 2계층 확장형 네트워크 설계를 도입했습니다. 맞춤형 전송 계층과 긴밀하게 통합된 NIC는 독자적인 패브릭에 의존하지 않고도 성능, 뛰어난 안정성 및 상당한 비용 절감 효과를 제공합니다.
각 가속기는 다음을 보여줍니다.
- 2.8TB/s의 양방향 전용 스케일업 대역폭
- 최대 6,144개의 가속기로 구성된 클러스터 전반에 걸쳐 예측 가능하고 고성능의 공동 운영이 가능합니다.
이 아키텍처는 밀집된 추론 클러스터에 확장 가능한 성능을 제공하는 동시에 Azure의 글로벌 전체 서버에서 전력 사용량과 총소유비용(TCO)을 절감합니다.
각 트레이 내에는 4개의 Maia 가속기가 스위칭되지 않는 직접 링크로 완벽하게 연결되어 있어 최적의 추론 효율성을 위해 고대역폭 통신을 로컬에서 유지합니다. 랙 내 및 랙 간 네트워킹에는 Maia AI 전송 프로토콜을 사용하여 동일한 통신 프로토콜이 적용되므로 최소한의 네트워크 홉으로 노드, 랙 및 가속기 클러스터 전반에 걸쳐 원활한 확장이 가능합니다. 이러한 통합 패브릭은 프로그래밍을 간소화하고 워크로드 유연성을 향상시키며 유휴 용량을 줄이는 동시에 클라우드 규모에서 일관된 성능과 비용 효율성을 유지합니다.
클라우드 네이티브 개발 접근 방식
마이크로소프트의 실리콘 개발 프로그램의 핵심 원칙은 최종 실리콘 출시 전에 가능한 한 엔드투엔드 시스템의 모든 부분을 검증하는 것입니다.
정교한 프리실리콘 환경은 초기 단계부터 Maia 200 아키텍처를 안내하며, LLM의 연산 및 통신 패턴을 높은 정확도로 모델링했습니다. 이러한 초기 공동 개발 환경 덕분에 최초 실리콘 생산 훨씬 이전에 실리콘, 네트워킹 및 시스템 소프트웨어를 통합적으로 최적화할 수 있었습니다.
또한, Maia 200은 처음부터 데이터센터에서 빠르고 원활한 가용성을 제공하도록 설계되었으며, 백엔드 네트워크와 2세대 폐쇄형 액체 냉각 열교환기 장치를 포함한 가장 복잡한 시스템 요소들에 대한 초기 검증을 거쳤습니다. Azure 제어 평면과의 기본 통합을 통해 칩 및 랙 수준 모두에서 보안, 원격 측정, 진단 및 관리 기능을 제공하여 프로덕션에 중요한 AI 워크로드의 안정성과 가동 시간을 극대화합니다.
이러한 투자의 결과로, AI 모델은 최초 패키지 부품 도착 후 며칠 만에 Maia 200 실리콘에서 실행될 수 있었습니다. 최초 실리콘부터 최초 데이터센터 랙 배포까지 걸린 시간은 유사한 AI 인프라 프로그램에 비해 절반 이하로 단축되었습니다. 칩에서 소프트웨어, 데이터센터에 이르는 이러한 엔드투엔드 접근 방식은 클라우드 규모에서 활용률 향상, 생산 시간 단축, 그리고 비용 대비 및 전력 소비 대비 성능의 지속적인 개선으로 직결됩니다.
Maia SDK 프리뷰에 등록하세요
대규모 AI 시대는 이제 막 시작되었으며, 인프라가 가능성의 범위를 결정할 것입니다. 저희 Maia AI 가속기 프로그램은 여러 세대에 걸쳐 사용할 수 있도록 설계되었습니다. 저희는 전 세계 인프라에 Maia 200을 배포하면서 이미 미래 세대를 위한 설계를 진행하고 있으며, 각 세대가 지속적으로 새로운 기준을 제시하고 가장 중요한 AI 워크로드에 대해 더욱 향상된 성능과 효율성을 제공할 것으로 기대합니다.
오늘, 개발자, AI 스타트업 및 학계 관계자 여러분을 새로운 Maia 200 소프트웨어 개발 키트(SDK)를 통해 초기 모델 및 워크로드 최적화를 탐색해 보시도록 초대합니다. 이 SDK에는 Triton 컴파일러, PyTorch 지원, NPL 기반의 저수준 프로그래밍, 그리고 코드 개발 초기 단계에서 효율성을 최적화할 수 있는 Maia 시뮬레이터 및 비용 계산기가 포함되어 있습니다. 여기에서 미리 보기 신청을 하세요 .
마이아 200 웹사이트 에서 더 많은 사진, 영상 및 자료를 확인 하고 자세한 내용을 읽어보세요 .




궤도에 올려놓는 느낌이네요
그런 큰손들마저
탈 전략이 불가한게
HBM…
치열하게 경쟁해서, 저 전력으로,
더 좋은 성능을 더 저렴하게 만들기를 응원 합니다.
앞으로 더 저전력이면서 성능은 우수한 가속기가 Rack 안에 더 고밀도로 실장되 운영이 될텐데 액침냉각, hvdc, 피크전력 제어 가 생각나네요. Maia 200 은 피크전력 제어를 어떻게 하는지도 궁굼하네요