주류 AI 모델의 신뢰성을 분석하여 벤치마크 순위를 알려주는 사이트입니다.
AI 모델은 때때로 사용자 수가 너무 많고 수요가 너무 높아서 출력 품질을 떨어뜨릴 수 있습니다. 물론, 일부 버그나 고장으로 인해 출력 성능에 영향을 줄 수도 있습니다.
글 작성 현재 1위는 CLAUDE-SONNET-4 입니다(4.5 아님;;;).
사진 출처 및 관련 사이트는 아래와 같습니다.
주류 AI 모델의 신뢰성을 분석하여 벤치마크 순위를 알려주는 사이트입니다.
AI 모델은 때때로 사용자 수가 너무 많고 수요가 너무 높아서 출력 품질을 떨어뜨릴 수 있습니다. 물론, 일부 버그나 고장으로 인해 출력 성능에 영향을 줄 수도 있습니다.
글 작성 현재 1위는 CLAUDE-SONNET-4 입니다(4.5 아님;;;).
사진 출처 및 관련 사이트는 아래와 같습니다.
포옹은 누군가를 안으며 동시에 나를 안는 것 - 조해진
체감상 클로드 코드보다 구글 AI Pro에서 주는 Antigravity의 클로드 사용량이 더 많다고 느낍니다.
이걸보니 오픈소스 기반의 모델 순위도 궁금하네요
일부 번역하면 다음과 같습니다.
“우리 시스템은 인공지능 모델의 성능을 4시간마다 자동 벤치마크를 통해 지속적으로 모니터링합니다.
각 모델에 대해 147개의 고유한 코딩 과제를 수행하며, 7가지 주요 지표(axis)에서 성능을 측정합니다.
그 결과를 28일간의 이동 기준선(rolling baseline)과 비교하여 z-점수 표준화(z-score standardization) 통계 분석을 적용함으로써 의미 있는 성능 저하를 감지합니다.
또한 CUSUM(누적합) 알고리즘을 사용해 지속적인 성능 저하 패턴을 식별함으로써, AI 기업이 계산 비용을 절감하기 위해 모델 능력을 의도적으로 낮추는 경우를 포착할 수 있습니다.”
절대 못 믿겠군요....
애초에 랭킹에 있는건 잼민이 2.5..... 뭐 잼민이 3.0은 그보다도 더 아래에 있다는 건가요??????
일부 번역하면 다음과 같습니다.
“코딩 작업에 일반 언어 능력보다 초점을 맞추는 이유는 코딩이 객관적이고 이진적인 성공 기준을 제공하기 때문입니다. 코드가 작동하든 하지 않든 명확한 결과가 나오며, 창작 글쓰기나 의견 생성처럼 주관적인 작업과 달리 자동화된 테스트로 검증 가능한 출력을 보장합니다.”
아티피셜 인텔리전스 https://artificialanalysis.ai/
정도 참고하시길 추천합니다.
실제로 LLM 업체들의 서비스가 항상 균일하지 않은 것이 사실이며 그걸 디텍트 해주는 기능이 있다는 점은 의미 있는 시도 같습니다. (대표적으로 주말에 한없이 멍청해지는 클로드 모델들...)
비교도 안되네요.
제미니3프로는 진짜 큰 파일 처리할때만 잠깐 씁니다.
코딩에는 제미니3프로 진짜 최악이에요.
플래시만도 못해요.
빠르게 3.1이나 3.5 나오지 않으면 다 떨어져나갈 것 같은데요.
할인한게 여세를 몬다기보다는 위기감에 한 것 같아요.
그 동안 다른 모델을 사용하면서도 아직 내가 대체는 안되겠구나 싶었지만 Opus를 사용하고서는 곧 내가 대체되겠구나라는 생각이 들었네요.