xAI가 'Grok 4'를 출시했습니다.
이번 발표와 함께 월 300달러의 프리미엄 구독 서비스 'SuperGrok Heavy'도 공개했습니다.
Grok은 OpenAI의 ChatGPT나 Google의 Gemini처럼 이미지를 분석하고 질문에 답변할 수 있는 AI 모델입니다.
최근 머스크가 소유한 소셜 네트워크 X에 깊숙이 통합되면서 더 많은 사용자들이 접하고 있습니다.
머스크는 수요일 밤 라이브 스트림에서 "학술적 질문에 관해서는 Grok 4가 모든 과목에서 박사 수준을 넘어선다"고 자신했습니다.
다만 "때로는 상식이 부족할 수 있고, 아직 새로운 기술을 발명하거나 새로운 물리학을 발견하지는 못했지만, 그것은 시간 문제"라고 덧붙였습니다.
xAI는 두 가지 버전의 모델을 선보였습니다.
기본 모델인 Grok 4와 성능이 향상된 Grok 4 Heavy입니다.
Grok 4 Heavy는 여러 AI 에이전트가 동시에 문제를 해결하고 서로 결과를 비교하여 최적의 답을 찾는 '멀티 에이전트' 방식을 사용합니다.
xAI는 Grok 4가 수학, 인문학, 자연과학 등 다양한 분야의 어려운 질문들로 구성된 'Humanity's Last Exam'에서 25.4%를 득점해 Google의 Gemini 2.5 Pro(21.6%)와 OpenAI의 o3(21%)를 앞선다고 주장합니다.
특히 Grok 4 Heavy는 도구를 활용했을 때 44.4%라는 더 높은 점수를 기록했다고 합니다.
비영리 단체인 아크 프라이즈(Arc Prize)는 Grok 4가 시각적 패턴 인식을 평가하는 ARC-AGI-2 테스트에서 16.2%를 득점했다고 밝혔으며 Claude Opus 4의 거의 두 배에 해당하는 성과입니다.
출처 : xAI
함께 공개한 월 300달러의 SuperGrok Heavy 구독 서비스는 주요 AI 제공업체 중 가장 비싼 요금제입니다.
구독자들은 Grok 4 Heavy에 먼저 접근할 수 있고, 향후 몇 달 안에 출시될 예정인 일부 신제품을 미리 체험해 볼 수 있습니다.
회사는 8월 출시 예정인 AI 코딩 모델, 9월의 멀티모달 에이전트, 10월의 비디오 생성 모델이 출시될 예정이라고 밝혔습니다.
xAI는 개발자들이 Grok 4를 활용한 애플리케이션을 만들 수 있도록 API도 제공합니다.
아직 엔터프라이즈 부문이 생긴 지 2개월밖에 안 되었지만, 대형 클라우드 플랫폼과의 협력을 통해 서비스를 확대할 계획입니다.
벤치마크를 좀 일신할 필요가 있지 않나 싶습니다.
분명히 어떤 부분에서 인간보다 뛰어난 것은 맞지만, 전체적으로 작업물들을 하모니컬하게 조합하는 능력이 떨어지고, 오류(환각이라는 비 직관적인 이름으로 명명하고 싶지 않습니다)가 너무 많아,
실제로는 마치 귀신들린 사람마냥, 어느 부분의 터치는 대가의 터치인데, 또 어떤 부분은 유치원생 수준의 터치로 성급하게 마무리를 하고, 스타일적으로도 부분 부분 두서없이 인상파, 야수파의 터치가 난잡하게 섞여 있고요.
어쨌든 멀리서 보면 어쨌든 콜라주로 구성된 꽃병 처럼 보이긴 하죠? 수준의 결과물인데, 이게... 워낙 다양한 문제가 복합적으로 섞여 있는 문제라
전문가 모델을 도입한다, 리즈닝 스텝을 둔다. 이정도의 기교만 가지고 해결한 문제가 아닌것 같습니다.
벤딩머신 벤치마크나 포켓몬 플레이같은 더 복잡한 맥락을 관리해야 하는 벤치마크가 더 많이 도입되어야 한다고 봅니다.
OCR조차 십년전 프로그램보다도 못하네요.