CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·주식한당 ·아이포니앙 ·MaClien ·방탄소년당 ·일본산당 ·개발한당 ·자전거당 ·이륜차당 ·소시당 ·AI당 ·패스오브엑자일당 ·안드로메당 ·나스당 ·클다방 ·바다건너당 ·걸그룹당 ·사과시계당 ·물고기당 ·전기자전거당 ·노젓는당 ·노키앙 ·가상화폐당 ·곰돌이당 ·윈폰이당 ·축구당 ·키보드당 ·리눅서당 ·IoT당 ·창업한당 ·소셜게임한당 ·여행을떠난당 ·골프당 ·콘솔한당 ·디아블로당 ·찰칵찍당 ·3D메이킹 ·X세대당 ·ADHD당 ·AI그림당 ·날아간당 ·육아당 ·배드민턴당 ·야구당 ·농구당 ·블랙베리당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·캠핑간당 ·냐옹이당 ·문명하셨당 ·클래시앙 ·요리한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·개판이당 ·동숲한당 ·날아올랑 ·e북본당 ·갖고다닌당 ·이브한당 ·패셔니앙 ·도시어부당 ·FM한당 ·맛있겠당 ·포뮬러당 ·젬워한당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·KARA당 ·꼬들한당 ·덕질한당 ·어학당 ·가죽당 ·레고당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·오른당 ·영화본당 ·MTG한당 ·소리당 ·적는당 ·방송한당 ·PC튜닝한당 ·그림그린당 ·소풍간당 ·심는당 ·라즈베리파이당 ·품앱이당 ·리듬탄당 ·달린당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·나혼자산당 ·스타한당 ·스팀한당 ·파도탄당 ·퐁당퐁당 ·테니스친당 ·테스트당 ·빨콩이당 ·공대시계당 ·터치패드당 ·트윗당 ·VR당 ·시계찬당 ·WebOs당 ·위스키당 ·와인마신당 ·WOW당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

모두의공원

오픈AI 2025년 국제수학올림피아드 42점 만점에 35점으로 금메달 달성. 3

2
2025-07-19 18:36:23 119.♡.21.82
아르키리드

문제는 총 여섯 문제, 문제당 7점 만점.

단순히 수식을 세우고 계산을 하는 게 아니라 증명을 요구하는 시험입니다.

올해 7월에 실시되었기 때문에 문제가 공개되기 전에 테스트되었습니다.

현 최신 모델들인 오픈AI의 O3, 구글의 제미니 2.5 프로, XAI의 그록4 등은 10점 대에 머물러있습니다.

그런데 오픈AI의 개발 중인 모델이 여섯 문제 중 1번부터 5번까지 모두 7점 만점으로 35점을 맞았습니다.

그동안 LLM은 증명도중 환각을 일으켜 존재하지 않는 증명을 참조하거나 논리적 비약으로 부분점수만 받기 일수였는데 처음으로 LLM 패러다임의 인공지능이 수학올림피아드 문제를 완벽하게 풀었습니다.

아래는 추론 모델 개발을 이끌고 있는 노엄 브라운 박사의 오늘자 트윗



오늘 저희 @OpenAI는 많은 사람들이 수년은 걸릴 것이라 생각했던 이정표를 달성했습니다.

일반 추론 LLM이 2025 국제수학올림피아드(IMO)에서 인간과 동일한 시간 제한 내에 금메달 수준의 성과를 거둔 것입니다.

이 소식이 놀랍게 들릴 수 있지만, 사실 헤드라인 이상의 의미가 있습니다. ?

보통 이런 AI 성과들(바둑, 도타, 포커, 외교 등)은 연구자들이 하나의 좁은 영역을 정복하기 위해 수년간 노력해 만든 결과물입니다.

하지만 이번 모델은 IMO 전용 모델이 아닙니다.

새로운 실험적 범용 기술을 탑재한 추론 LLM입니다.


무엇이 다를까요?

우리는 검증하기 어려운 과제에서 LLM을 훨씬 더 잘 작동하게 만드는 새로운 기술을 개발했습니다.

IMO 문제는 이에 완벽한 도전 과제였습니다.

IMO 증명은 수 페이지에 걸쳐 작성되고, 전문가도 채점하는 데 몇 시간이 걸립니다.

반면 AIME는 단지 0~999의 정수 답안을 요구합니다.

또한 이 모델은 아주 오래 생각합니다.

o1은 몇 초 생각했죠. Deep Research는 몇 분. 이 모델은 몇 시간을 생각합니다.

중요한 점은, 생각하는 과정이 훨씬 더 효율적입니다.

테스트 시 연산량과 효율성을 더 끌어올릴 여지가 매우 큽니다.

AI의 발전 속도가 얼마나 빠른지 특히 수학 분야에서 되돌아볼 가치가 있습니다.

2024년에는 AI 연구소들이 모델 평가 지표로 초등학교 수준의 GSM8K를 사용했습니다.

그 이후로 우리는 (고등학교 수준의) MATH 벤치마크를 정복했고, AIME를 거쳐 이제는 IMO 금메달에 도달했습니다.


이후 전망은 어떨까요?

최근 AI 발전이 매우 빠르지만, 이 추세는 계속될 것이라 확신합니다.

특히 우리는 AI가 과학적 발견에 실질적으로 기여하는 시점에 매우 가까워졌다고 생각합니다.

인간 최고 성능보다 살짝 아래 있는 AI와 살짝 위에 있는 AI의 차이는 매우 큽니다.


이번 성과는 @alexwei_가 이끈 소규모 팀의 노력 덕분입니다.

그는 거의 믿지 않았던 연구 아이디어를 활용 해, 더더욱 불가능하다고 여겨졌던 결과를 달성했습니다.

또한 이는 수년간 이어진 @OpenAI와 더 넓은 AI 커뮤니티의 연구·공학적 기여 없이는 불가능했습니다.


최전선 연구소에서 일하다 보면, 보통 몇 달 전에 최첨단 능력이 어디까지 왔는지 알게 됩니다.

하지만 이번 결과는 아주 최근 개발된 기술로 얻은 완전히 새로운 성과입니다.

OpenAI 연구자들조차도 놀란 성과였고, 오늘 모든 사람이 그 최전선을 함께 보게 되었습니다.


https://twitter.com/polynoamial/status/1946478249187377206


아르키리드 님의 게시글 댓글
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [3]
cEnoch
IP 121.♡.132.83
07-19 2025-07-19 19:01:29
·
내용이 상당히 인상적이네요.

수 페이지에 이르는 증명 문제를 환각없이, 논리적 비약없이 일관성 있게 풀어낼 수 있다면, 그건 정말 지금까지의 LLM들이 보여줬던 퍼포먼스와는 완전히 다른 경지의 것이고, 활용도가 높아질 것 같긴한데

이런종류의 설레발 끝에 나온 결과물들을 보면, 내가 들어왔던 '그' 제품이 맞나 싶을 정도의 퍼포먼스였어서
(오픈 AI의 추론 모델이 '스트로베리'라는 이름으로 불렸을 무렵, 소문 속(혹은 샘 알트먼이 인터뷰를 통해서 땐 군불속)의 성능, 그리고 대중이 가졌던 기대감은 이제 연구도 AI가 할 수 있다. 였는데 지금 보면... 뭐 택도 없으니까요)

일단은 차분하게 지켜보려고 합니다. 추론시간이 몇시간 분량이다라고 하는데... 그건 또 올림피아드 문제당 할애할 수 있는 시간이 한시간이 채 안되니까, 아마 최대 그정도까지 내부 이터레이션을 가져갈 수 있다. 정도로 볼 수 있을 것 같은데... 문제에 대해서 전략을 세우고, 그걸 자기 주도적으로 몇십분씩 풀어내는건 자사에도 codex 라던지, gemini cli 라던지, Claude Code 라던지 다 있던거라서...

성과에는 박수를 보냅니다만, 차분하게 디테일이 나올 때까지 좀 더 지켜보고 싶네요.
절자제
IP 14.♡.88.126
07-19 2025-07-19 19:49:17
·
상용화 할 수 없을것 같은데요?
가을길
IP 211.♡.229.1
07-19 2025-07-19 22:33:17
·
그런데 내 CHATGPT는 왜 이럴까요.
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.