기존 벤치마크와는 다르게 조금 더 현실적인 환경을 구현해서 수행했다고 하는데 반농담으로 제미나이 기존 버전들 점수가 밑에 쳐박힌 것을 보고 신뢰할 만하다고 하네요.
오푸스는 무슨 일이 일어난 건지 4.7은 그 명성에 비해서 생각보다 잘 안나온 느낌이네요.
그리고 GPT-5.5는 체급이 올라간 것을 감안해도 엄청나군요.
그냥 재미로만 봐주세요.
테스트 방법에 대한 내용은 출처에 있습니다.
기존 벤치마크와는 다르게 조금 더 현실적인 환경을 구현해서 수행했다고 하는데 반농담으로 제미나이 기존 버전들 점수가 밑에 쳐박힌 것을 보고 신뢰할 만하다고 하네요.
오푸스는 무슨 일이 일어난 건지 4.7은 그 명성에 비해서 생각보다 잘 안나온 느낌이네요.
그리고 GPT-5.5는 체급이 올라간 것을 감안해도 엄청나군요.
그냥 재미로만 봐주세요.
테스트 방법에 대한 내용은 출처에 있습니다.
실제 사용자의 사용데이터를 모으질 못해서 자꾸 뒤쳐진다구요.
코딩분야 한장입니다