알리바바가 자사의 최신 AI 모델 Qwen3.7-Max를 공개했습니다.
이 모델은 사람의 개입 없이 최대 35시간 동안 스스로 작업을 수행할 수 있는 자율 에이전트 AI로, 단순한 텍스트 생성을 넘어 복잡한 작업을 계획하고 실행하며 스스로 오류를 수정하는 능력을 갖추고 있습니다.
출처 : QwenQwen 팀이 공개한 실증 사례로,
모델은 훈련 과정에서 한 번도 접해본 적 없는 하드웨어 아키텍처인 T-Head ZW-M890 PPU가 탑재된 격리된 서버에 접근 권한을 부여받고, 어텐션 커널 최적화라는 과제를 수행했습니다.
이 모델은 35시간 동안 1,158번의 도구 호출과 432번의 커널 평가를 수행하며 기하 평균 10.0배의 속도 향상을 달성했습니다.
같은 과제에서 z.ai의 GLM-5.1은 7.3배, Moonshot의 Kimi K2.6은 5.0배에 그쳤으며, 두 모델 모두 진전이 없다고 판단하면 스스로 세션을 종료했습니다.
알리바바는 이러한 장기 자율 실행 능력을 "환경 스케일링" 기법으로 훈련한 결과라고 설명합니다.
또한 모델에는 보상 해킹 자가 감시 기능이 내장되어 있어, 스스로 부정한 방법을 시도하고 있다고 판단할 경우 자체적으로 행동을 교정하는 기능도 갖추고 있습니다.
성능 면에서도 주목할 만한 수치를 보여주고 있습니다.
Apex 수학 추론 벤치마크에서 44.5점을 기록해 Claude Opus 4.6 Max의 34.5점과 DeepSeek V4-Pro Max의 38.3점을 크게 앞질렀으며, Humanity's Last Exam에서 41.4점, 실전 코딩 에이전트 벤치마크 MCP-Atlas에서 76.4점을 기록했습니다.
컨텍스트 창은 100만 토큰, 최대 출력은 64K 토큰으로, 방대한 코드베이스나 긴 기술 문서 처리에도 충분한 여유를 제공합니다.
Anthropic API 프로토콜을 기본 지원하기 때문에 Claude Code 같은 기존 개발 도구에 곧바로 연결해 사용하는 것도 가능합니다.
출처 : 벤처비트
가격은 입력 토큰 100만 개당 2.50달러, 출력 토큰 100만 개당 7.50달러로, 총 10달러 수준입니다.
DeepSeek V4 Pro(5.22달러)나 GLM-5.1(5.80달러)보다는 비싸지만, GPT-5.4(17.50달러)나 Claude Opus 4.7(30달러)과 비교하면 상당히 저렴합니다.
알리바바는 Qwen3.7-Max를 Google Gemini 3.5 Flash(10.50달러) 바로 아래에 포지셔닝하며, 서방 최상위 모델들로부터 기업 고객을 끌어오겠다는 전략적 의도를 분명히 하고 있습니다.
한편 기술적 성취와 별개로, 라이선스 방식은 개발자 커뮤니티의 아쉬움을 사고 있습니다.
Qwen 2.5, Qwen 3.6 등 이전 버전들은 모델 가중치를 공개해 누구나 자체 서버에서 내려받아 실행하고 파인튜닝할 수 있었지만, Qwen3.7-Max는 API를 통해서만 접근이 가능한 독자적 모델로 출시되었습니다.
이는 OpenAI, Anthropic 등 미국 AI 기업들과 동일한 상업 전략으로의 전환을 의미합니다.
이에 대해 개발자 커뮤니티에서는 오픈소스 생태계에서 이 모델을 활용할 수 없게 된 것에 대한 실망감을 표출하고 있습니다.
AI 해설가 Sudo su는 Sudo su는 X의 게시글에서 "3.6 dense는 로컬 LLM 생태계 전체를 더 나아지게 했고 max 티어가 API 전용으로 가면 우리가 열어두고 있던 문이 닫히는 것"이라며 언젠가는 가중치를 공개해 달라고 호소했습니다.
다만, 학습 미사용에 대한 신뢰가 없는 상태에서 업무에 사용하기 부담스럽습니다. 미국 내에 서버를 두고 미국법을 준수한다고 해도 저정도 가격 차이면 쓰고 싶지 않습니다.
차라리 라이센스 피를 받아도 좋으니 중립된 다른 프로바이더에도 제공해줬으면 합니다.