MiniMax-M3, GPT-5.5·Gemini 3.1 Pro 대비 비용 5~10%로 주요 벤치마크 성능 앞서 : 클리앙

중국 AI 스타트업 MiniMax가 새로운 대형 언어 모델 M3를 공개했습니다.

100만 토큰 컨텍스트 윈도우, 네이티브 멀티모달, 프론티어급 코딩·에이전틱 성능을 갖추면서도 가격은 OpenAI·Google·Anthropic 등 미국 주요 모델의 5~10% 수준입니다.

API 가격은 입력 토큰 100만 개당 $0.30, 출력 $1.20이며, 향후 10일 내 오픈 웨이트 공개도 예정되어 있습니다.

Frontier AI 모델 API 가격 개요:

화면 캡처 2026-06-02 150807.png 출처 : 벤처비트

비용이 낮은 이유는 아키텍처 혁신에 있습니다.

기존 트랜스포머의 어텐션 연산은 입력이 길어질수록 비용이 이차함수적으로 증가하는 구조적 한계를 가집니다.

MiniMax는 이를 극복하기 위해 자체 개발한 MiniMax Sparse Attention(MSA) 기법을 도입했습니다.

MSA는 Key-Value 행렬을 정밀한 블록 단위로 분할해 필요한 쿼리만 선택적으로 처리하는 방식으로, 기존 오픈소스 대안 대비 4배 이상 빠릅니다.

100만 토큰 처리 시 토큰당 연산량이 이전 세대의 1/20로 줄고, 프리필링 속도는 9배, 디코딩 속도는 15배 향상됩니다.

모델은 텍스트·이미지·시각 데이터를 처음부터 통합해 학습한 네이티브 멀티모달 구조로, 총 사전학습 코퍼스는 100조 토큰을 넘습니다.

성능 면에서는 자율 에이전트 지표인 SWE-Bench Pro에서 59.0%를 기록해 GPT-5.5와 Gemini 3.1 Pro를 앞섰고, BrowseComp 자율 브라우징 항목에서는 83.5%로 Claude Opus 4.7의 79.3%를 넘어섰습니다.

다만 Anthropic이 최근 공개한 Claude Opus 4.8과 비교하면 차이가 있습니다.

SWE-Bench Pro에서 Opus 4.8이 69.2%, Terminal Bench 2.1에서 74.6%, OSWorld GUI 평가에서 83.4%로 M3의 각 수치를 앞섭니다.

같은 오픈 웨이트 모델인 DeepSeek-V4 Pro Max와는 대부분 항목에서 오차 범위 내 접전을 벌이며, 코드 수정(SWE-Bench Pro 59.0% 대 55.4%)에서는 M3가 우위를 보입니다.

제품 측면에서는 MiniMax Code라는 AI 에이전트를 함께 제공합니다.

하나의 에이전트가 코드를 생성하면 다른 에이전트가 검증·수정하는 구조로, 인간 개입 없이 수일간 자율 운영이 가능합니다.

실제로 ICLR 2025 우수 논문 재현 테스트에서 M3는 12시간 동안 18개 커밋과 23개 실험 그림을 스스로 생성하며 핵심 실험을 성공적으로 완료했습니다.

Claude Code·Cursor·Cline 등 주요 IDE 환경과도 호환되며, 월 $20부터 시작하는 구독 플랜을 통해 개인 개발자도 부담 없이 이용할 수 있습니다.

엔터프라이즈 관점에서 M3의 가장 큰 강점은 오픈 웨이트입니다.

클로즈드 API 모델은 외부 서버로 데이터를 전송해야 하고, 커스터마이징은 프롬프트 엔지니어링 수준에 머물며, 토큰당 과금이 영구적으로 발생합니다.

반면 M3는 사내 서버에 직접 배포해 데이터가 외부로 나가지 않고, 가중치 수준의 파인튜닝이 가능하며, 연산 비용도 기존의 1/20 수준입니다.

다만 어떤 라이선스(MIT, Apache 2.0, OpenMDW 등)로 공개될지는 아직 확정되지 않았으며, 상업적 이용 가능 여부도 발표를 기다려야 합니다.

새로운소식