중국 배달 앱 기업 메이투안이 GitHub와 Hugging Face, 그리고 자사 플랫폼을 통해 차세대 에이전트 코딩 모델 'LongCat-2.0'을 공식 공개했습니다.
이번 발표로 지난 두 달간 오픈라우터의 글로벌 개발자 차트 상위권을 장악해온 정체불명의 스텔스 모델 'Owl Alpha'의 실체도 함께 드러났습니다.
다만 전체 가중치는 아직 게시되지 않은 상태로, 저장소에는 조만간 공개하겠다는 안내만 올라와 있습니다.
이 모델은 1.6조 파라미터 규모의 전문가 혼합(MoE) 구조를 지녔으며, 상업적 활용에 제약이 적은 MIT 라이선스 하에 100만 토큰의 네이티브 컨텍스트 윈도우를 제공합니다.
가격 정책도 파격적입니다.
캐시가 적중된 컨텍스트는 완전히 무료로 처리되고, 일반적인 종량제 API 요금은 100만 토큰당 입력 0.75달러, 출력 2.95달러로 책정되어 있습니다. 여기에 더해 현재 진행 중인 한정 프로모션을 적용하면 입력 0.30달러, 출력 1.20달러까지 낮아져 전 세계 최상위권 모델 중에서도 손꼽히게 저렴한 수준입니다.
이번 공개가 특히 주목받는 이유는 학습 과정의 '탈 엔비디아' 행보에 있습니다.
LongCat-2.0은 5만 개 이상의 중국산 주문형 반도체(ASIC) 클러스터에서 전량 학습되었습니다.
엔비디아 GPU에 의존하지 않고도 조 단위 파라미터 모델을 성공적으로 확장할 수 있다는 사실을 실증한 셈이며, 이는 엔비디아의 독점적 지위에 구조적인 위협이 될 수 있는 사례로 평가됩니다.
시기적으로도 미묘합니다.
미국 정부가 자국 연구소들의 최신 모델 접근을 제한하도록 압박하는 흐름과 맞물려 있기 때문입니다.
실제로 OpenAI는 정부 요청에 따라 GPT-5.6에 대한 접근을 제한해야 했고, Anthropic 역시 앞서 Claude Fable 5와 Mythos 5에 대한 제한 명령을 받아 해당 모델들을 오프라인으로 전환한 바 있습니다.
업계에서는 이러한 방어적 규제가 오히려 역효과를 낳고 있다는 우려가 나옵니다.
서방 폐쇄형 모델의 접근을 통제하고 비용 부담을 키울수록, 메이투안의 LongCat-2.0처럼 저렴하고 성능 좋은 대안으로 개발자들이 옮겨갈 여지만 넓어진다는 지적입니다.
이러한 우려를 뒷받침하듯 실제 사용량도 폭발적입니다.
브랜드 없이 서비스되던 기간 동안 Owl Alpha는 월평균 10조 1천억 개, 하루 평균 5,590억 개의 토큰을 처리했습니다.
전월 대비 242% 증가한 수치로, 오픈라우터 글로벌 순위 3위권에 진입하는 발판이 되었습니다.
정체가 공개된 시점에는 이미 Hermes Agent 워크스페이스 1위, Claude Code 배포 환경 2위, 글로벌 OpenClaw 환경 3위를 기록하고 있었습니다.
기술적으로는 100만 토큰 컨텍스트를 감당하기 위한 희소성 최적화가 핵심입니다.
전체 파라미터는 1.6조 개에 달하지만, 토큰당 실제 활성화되는 연산은 평균 480억 개 파라미터에 그치며 질의의 복잡도에 따라 330억에서 560억 개 사이에서 동적으로 조절됩니다.
반복적인 연산은 가벼운 서브 네트워크가 처리하도록 하는 '제로 컴퓨팅 전문가' 구조를 적용해 불필요한 오버헤드를 줄였습니다.
제품 설계 방향도 뚜렷합니다. 범용 대화형 모델과 달리 LongCat-2.0은 처음부터 다단계 엔지니어링 작업, 도구 연동, 저장소 자동 조작 같은 에이전트 작업에 초점을 맞췄습니다.
실제로 SWE-bench Pro에서 59.5점을 기록해 GPT-5.5의 58.6점을 근소하게 앞질렀고, Terminal-Bench 2.1에서 70.8점, SWE-bench Multilingual에서 77.3점, 기업 워크플로우 시뮬레이터 FORTE에서 73.2점을 받았습니다.
다만 FORTE나 BrowseComp 같은 범용 에이전트 벤치마크에서는 Claude Opus 4.8 같은 프리미엄 모델에 전반적으로 미치지 못하는 만큼, 소프트웨어 엔지니어링에 특화된 강점을 지닌 모델로 보는 것이 정확합니다.
상업적 이용 방식은 두 갈래로 나뉩니다.
기업용 표준 계정은 실시간으로 토큰 사용량만큼 과금하는 종량제 방식이며, 여기에 더해 예측하기 어려운 에이전트 작업의 연산 폭증에 대응하기 위한 '토큰 팩'을 별도로 운영합니다.
토큰 팩은 30일간만 유효한 일회성 물량으로, 베이징 시간 기준 하루 네 차례(10시, 16시, 21시, 23시) 선착순 플래시 세일로 판매됩니다.
가장 큰 장점은 앞서 언급한 대로 캐시 적중분은 과금하지 않는다는 점으로, 동일한 대규모 코드 저장소를 반복해서 참조하는 장시간 에이전트 세션에서 비용 부담을 크게 줄여줍니다.
라이선스 면에서도 기업 친화적입니다.
파생물 공개 의무가 따르는 GPL 같은 카피레프트 라이선스와 달리 MIT 라이선스를 채택해, 기업이 저장소를 자유롭게 포크하고 내부 구조를 수정해 폐쇄형 상업 제품에 넣거나 그대로 판매해도 소스를 공개할 의무가 없습니다.
메이투안은 2010년 왕싱이 그루폰 형태의 소셜 커머스로 창업한 회사로, 2015년 디엔핑과 합병한 뒤 리뷰, 즉시 배달, 호텔 예약을 아우르는 슈퍼앱으로 성장해 현재 연간 7억 7천만 명 이상의 이용자와 1,450만 개 이상의 가맹점 네트워크를 보유하고 있습니다.
그러나 내수 시장 경쟁 심화로 마진이 줄어들자 물류를 넘어선 사업 다각화에 나섰고, AI와 자국산 반도체에 수십억 달러 투자를 공언했습니다.
이 전략은 2025년 말 5,600억 파라미터 규모의 LongCat-Flash와 추론 모델 LongCat-Flash-Thinking 출시로 이어졌고, 이번 LongCat-2.0 공개로 한층 구체화된 모습입니다.
기업 입장에서 보면 오픈 가중치와 100만 토큰 컨텍스트, MIT 라이선스의 조합은 제3자 API에 의존할 때 생기는 데이터 프라이버시 우려와 비용 부담을 동시에 덜어줄 수 있는 선택지입니다.
대규모 저장소 마이그레이션처럼 개발자가 수백 시간을 들여야 했던 작업도, 전체 코드베이스와 최신 SDK 문서를 한 번에 컨텍스트에 넣어 의존성 매핑부터 구조적 업데이트, 컴파일, 버그 수정까지 자율적으로 처리하게 할 수 있습니다.
또한 전문가별로 역할이 분리된 구조 덕분에 금융이나 의료 분야처럼 환각과 안전 기준 위반에 민감한 업종에서도, 추론 성능을 낮추지 않으면서 오류를 억제하는 안전 장치를 함께 갖춘 채로 심화된 추론 작업을 맡길 수 있다는 점이 특징입니다.