문제는 총 여섯 문제, 문제당 7점 만점.
단순히 수식을 세우고 계산을 하는 게 아니라 증명을 요구하는 시험입니다.
올해 7월에 실시되었기 때문에 문제가 공개되기 전에 테스트되었습니다.
현 최신 모델들인 오픈AI의 O3, 구글의 제미니 2.5 프로, XAI의 그록4 등은 10점 대에 머물러있습니다.
그런데 오픈AI의 개발 중인 모델이 여섯 문제 중 1번부터 5번까지 모두 7점 만점으로 35점을 맞았습니다.
그동안 LLM은 증명도중 환각을 일으켜 존재하지 않는 증명을 참조하거나 논리적 비약으로 부분점수만 받기 일수였는데 처음으로 LLM 패러다임의 인공지능이 수학올림피아드 문제를 완벽하게 풀었습니다.
아래는 추론 모델 개발을 이끌고 있는 노엄 브라운 박사의 오늘자 트윗
오늘 저희 @OpenAI는 많은 사람들이 수년은 걸릴 것이라 생각했던 이정표를 달성했습니다.
일반 추론 LLM이 2025 국제수학올림피아드(IMO)에서 인간과 동일한 시간 제한 내에 금메달 수준의 성과를 거둔 것입니다.
이 소식이 놀랍게 들릴 수 있지만, 사실 헤드라인 이상의 의미가 있습니다. ?
보통 이런 AI 성과들(바둑, 도타, 포커, 외교 등)은 연구자들이 하나의 좁은 영역을 정복하기 위해 수년간 노력해 만든 결과물입니다.
하지만 이번 모델은 IMO 전용 모델이 아닙니다.
새로운 실험적 범용 기술을 탑재한 추론 LLM입니다.
무엇이 다를까요?
우리는 검증하기 어려운 과제에서 LLM을 훨씬 더 잘 작동하게 만드는 새로운 기술을 개발했습니다.
IMO 문제는 이에 완벽한 도전 과제였습니다.
IMO 증명은 수 페이지에 걸쳐 작성되고, 전문가도 채점하는 데 몇 시간이 걸립니다.
반면 AIME는 단지 0~999의 정수 답안을 요구합니다.
또한 이 모델은 아주 오래 생각합니다.
o1은 몇 초 생각했죠. Deep Research는 몇 분. 이 모델은 몇 시간을 생각합니다.
중요한 점은, 생각하는 과정이 훨씬 더 효율적입니다.
테스트 시 연산량과 효율성을 더 끌어올릴 여지가 매우 큽니다.
AI의 발전 속도가 얼마나 빠른지 특히 수학 분야에서 되돌아볼 가치가 있습니다.
2024년에는 AI 연구소들이 모델 평가 지표로 초등학교 수준의 GSM8K를 사용했습니다.
그 이후로 우리는 (고등학교 수준의) MATH 벤치마크를 정복했고, AIME를 거쳐 이제는 IMO 금메달에 도달했습니다.
이후 전망은 어떨까요?
최근 AI 발전이 매우 빠르지만, 이 추세는 계속될 것이라 확신합니다.
특히 우리는 AI가 과학적 발견에 실질적으로 기여하는 시점에 매우 가까워졌다고 생각합니다.
인간 최고 성능보다 살짝 아래 있는 AI와 살짝 위에 있는 AI의 차이는 매우 큽니다.
이번 성과는 @alexwei_가 이끈 소규모 팀의 노력 덕분입니다.
그는 거의 믿지 않았던 연구 아이디어를 활용 해, 더더욱 불가능하다고 여겨졌던 결과를 달성했습니다.
또한 이는 수년간 이어진 @OpenAI와 더 넓은 AI 커뮤니티의 연구·공학적 기여 없이는 불가능했습니다.
최전선 연구소에서 일하다 보면, 보통 몇 달 전에 최첨단 능력이 어디까지 왔는지 알게 됩니다.
하지만 이번 결과는 아주 최근 개발된 기술로 얻은 완전히 새로운 성과입니다.
OpenAI 연구자들조차도 놀란 성과였고, 오늘 모든 사람이 그 최전선을 함께 보게 되었습니다.
https://twitter.com/polynoamial/status/1946478249187377206
수 페이지에 이르는 증명 문제를 환각없이, 논리적 비약없이 일관성 있게 풀어낼 수 있다면, 그건 정말 지금까지의 LLM들이 보여줬던 퍼포먼스와는 완전히 다른 경지의 것이고, 활용도가 높아질 것 같긴한데
이런종류의 설레발 끝에 나온 결과물들을 보면, 내가 들어왔던 '그' 제품이 맞나 싶을 정도의 퍼포먼스였어서
(오픈 AI의 추론 모델이 '스트로베리'라는 이름으로 불렸을 무렵, 소문 속(혹은 샘 알트먼이 인터뷰를 통해서 땐 군불속)의 성능, 그리고 대중이 가졌던 기대감은 이제 연구도 AI가 할 수 있다. 였는데 지금 보면... 뭐 택도 없으니까요)
일단은 차분하게 지켜보려고 합니다. 추론시간이 몇시간 분량이다라고 하는데... 그건 또 올림피아드 문제당 할애할 수 있는 시간이 한시간이 채 안되니까, 아마 최대 그정도까지 내부 이터레이션을 가져갈 수 있다. 정도로 볼 수 있을 것 같은데... 문제에 대해서 전략을 세우고, 그걸 자기 주도적으로 몇십분씩 풀어내는건 자사에도 codex 라던지, gemini cli 라던지, Claude Code 라던지 다 있던거라서...
성과에는 박수를 보냅니다만, 차분하게 디테일이 나올 때까지 좀 더 지켜보고 싶네요.