
수능의 여러 영역에 걸친 종합 점수

GPT 5.5가 발표 할 때 나온 효율은 곧 똑똑한 만큼 토큰을 덜 먹으면서 정확히 풀 수 있는 모습으로 증명 되었습니다.

https://hehee9.github.io/2026-CSAT/
딥시크가 눈에 띕니다.
토큰 비용은 싸지만 문제 풀이를 위해 써야 하는 연산량 때문에...
딥시크 모델의 경우 고성능 모델이 플래시 모델 보다 비용이 적게 나온 대목이 눈에 띕니다.
이 정도면 비용의 이점 보다 성능 차가 더 크다고 볼 수 있을 것 같습니다.
물론 수능으로 모든 것이 다 설명 되지는 않습니다만,
여러 언어부터 수학 과학 등을 아우르므로 일정 부분의 대표성은 있어 보입니다.
코딩이나 에이전트 성능이 중요한 시기여서 이런 부분만 볼 수는 없겠지만 말입니다.
앞자리는 모두 GPT, 제미나이, 클로드 순의 성적이고,
중국 모델의 성능은 Qwen, 딥식, KIMI 순이며,
그 뒤를 그록과 K엑사원이 뒤따르네요.
이 와중에 성능은 확실한데 역시... 가장 비싼 건 클로드 오푸스군요..ㄷㄷㄷ;
얼마 전까지는 코딩과 같은 전문 분야 외에는
종합적 성능에서 제미나이가 가장 무난한 선택이었다면,
이제는 코딩 포함 전 분야에서 GPT 5.5가 비용과 성능 모두에서 원탑이 된 모습입니다.
중국 모델은 가성비가 아주 좋은 것 같이 홍보 되지만,
실제로는 API 토큰 당 비용만 쌀 뿐... 실제 결과를 내기 위한 비용에서
얼마 더 싸지 못한 대신 그 가격차 보다 더 낮은 실성능이었습니다.
GLM5.1 의 경우 API비용 대비 코딩 쪽으로 괜찮다고 하니,
특화 성능 쪽으로는 조금 다를 수 있는 점을 감안해서 보면 될 것 같습니다.
좋은 정보 감사합니다
같은 딥식이어도 고성능 딥식이 저성능 딥식이 플래시보다 가성비가 좋게 나오는 것도 눈여겨 볼 만한 지점입니다.
엑사원의 총 비용은 매우 싸므로 토큰을 많이 먹는 것 같이 보여도 총 비용이 중국 모델들 보다 싸므로 오히려 이게 가성비 같네요.
토큰당 가격은 업체에서 정하는 것이니 성능이 떨어지면 싸게라도 해야 팔릴 가능성이 있게되겠죠. 수율이 떨어지면 업체가 치킨게임에서 버틸 체력도 낮은 셈입니다.
그런 면에서 GPT 5.5의 처음부터 사전학습까지 새로 한 모델의 효율성은 구조상 압도적인 것이고 이제 강화학습 모델이 나오면 얼마나 뛰어날지..
아마 딥식이도 cot를 효율적으로 하려고 하면 토큰을 극단적으로 줄일 수 있을 겁니다. 다만 다들 그렇듯 출시 초기 차력쑈를 하는 중인거죠.