모두 아시겠지만...벤치 점수는 점수일 뿐입니다.
참고가 안 되는 건 아니지만 살 사용 성능하고 괴리가 적지 않은 편입니다.
그럼에도 챗지피티의 경우 자사의 다수 모델이 같은 벤치를 받는 경우가 많았기 때문에
대조 가능한 비교군이 충분하므로 최신 오원프로의 성능이 전 보다 나아졌음을 부인하긴 어려운데요.
무려 200달러짜리 이 플랜을 이미 결제하고 사용해 본 사람들이 전하는 말에 의하면,
더 나은 답변을 주긴 하는데...열배 가격의 가치를 하느냐면... 아니라고 합니다.
그 이유는 프리뷰 버전에서 보여준 추론 과정을 그대로 답습하기 때문입니다.
예를 들어 다른 추론 방법, 더 나은 추론으로 기존에는 풀지 못했던 문제를
프로에서 풀 수 있어야 할 터인데,
추론 방법이 거의 같다 보니 프로버전임에도 프리뷰가 풀지 못한 문제는
프로도 풀지 못한다는 것입니다.
게다가 일부 오류가 있는 것인지, 프리뷰 보다 못한 결과가 나올 때도 있고,
코딩에 있어서 기존에 불가능했던 부분이 가능해졌다던지 하는 것이 아니어서
아무래도 사용량이 아주 많고,
그 답변의 질 차이가 조금이라도 더 나은 것이 자신의 생산성 향상 및
시간 절약 등으로 인한 이득이 큰 업무에 한해 200달러의 가치를 할 것으로 보이고,
이 정도 민감한 정도가 아니라면....굳이...가 될 수 있겠습니다.
즉, 아주 사소한 차이가 나의 생산성에 매우 큰 영향을 받는
일부가 아니라면 ... 굳이 사용할 필요가 지금 당장은 없는 것 같습니다.
o1 pro는 무제한이 아니고, o1이 무제한일거에요
o1 프로 모델은 그 첫 시작점 모델이라고 하네요. 완성형이 아닌, 시작형 모델이요.
앞으로 모델이 더 출시된다고 하니 기다리는 것도 의미있을 듯 합니다.
근대 4o도 오늘보니 미친듯 똑똑해졌던데요 ㄷㄷㄷ
샘 알트만에 따르면, "하루종일 ai를 사용하고, 정말 어려운 문제를 해결하기 위해, 정보를 얻기 위한 극소수만" 프로 플랜을 고려하길 바라고, 그 외 거의 모든 사용자는 무료나 월 20달러의 플러스 모델을 사용하는 것이 가장 좋다고 하네요.
미친듯이요?
혹시 클로드에서 옮길만한 메리트가 있을 정도인지 궁금하군요.
그렇다면 옮기는 것도 고려해 볼 수 있으니까요.
주말에 코딩도 좀 시켜보려고요.
클로드는 안써서 모르겠어요. gpt는 25달러짜리 2계정 쓰고 있어요.
그 외에 프로젝트 관련된 문서 작성에서는 claude 쪽이 여전히 더 프롬포트 순응도라던지, 맥락이해등이 더 낫다고 느겨서 claude 사용중입니다.
애플이 gsm8k 를 만들면서 말했던 "Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn't contribute to the reasoning chain needed for the final answer." 이게 저는 맞다고 봐요. 물론 gsm8k 에서 o1 을 가지고 테스트한건 아니지만서도 말이죠.
결국 실 사용 환경에서 우리가 진짜로 풀게 될 문제들, 정해진/진부한 문제세트 말고 통섭적 사고가 필요한 일에 어느정도의 퍼포먼스를 보여줄 수 있는지를 나타낼 수 있는지 제대로 보여줄 수 있는 벤치마크의 연구가 필요한거 아닌가 생각됩니다.