https://huggingface.co/LGAI-EXAONE/EXAONE-4.0.1-32B
위 링크에서 벤치마크를 보면 알겠지만,
Qwen 3 32B를 소폭 상회하는 성능입니다.
물론 나온지 두어달 된 모델과의 비교이기 때문에
핑퐁하는 정도는 달성 되었다고 볼 수 있겠습니다.
아직 부족한 대목은 초거대 모델이 없다는 점인데요.
이제 AI이니셔티브를 통해 만들어지겠죠.
그런데 좀 신기한 것이 R1이 681B이고 중국 내에는 이것 보다 더 큰
모델도 있어서,
이런 파운데이션 모델이 없이는 엑사원과 같은 성과는 어렵지 않느냐는
생각이 많았었는데,
엑사원 4.0 도 그렇고 4.01도 그렇고...없는 와중에도 어떻게 32B모델로 이런
성능을 내긴 내네요. 신기합니다.
정말 일 내는 건지는 조금 더 지켜봐야 됩니다.
예컨데 Qwen의 MoE에 80B로 여러 버전을 내놓고 있는데요.
이런 덩치 더 큰 모델에서도 성과를 보여야겠죠.
지금은 32B에 한정해서 본 것이어서요.
1. 저마다의 사용 옹도에 따라 체감은 다릅니다.
예를 들어 요즘 좀 쳐지기 시작한 제미나이2.5프로도 아직 가장 좋다고 말하는 사람도 있고,
벤치점수로 소타인 GPT5도 아직 클로드코드에 못 미친다는 사람도 있고 그렇습니다.
2. 모든 LLM은 벤치마크 점수에 목매답니다. 그렇지 않은 LLM은 단 하나도 없습니다. 벤치마크를 위한 벤치마크용 학습을 하지 않는 LL은 존재하지 않습니다.
3. 님의 만족도가 낮다고 느끼는 것은... 그럴 수 있습니다. 저도 벤치 점수와는 달리 실제 질문해 보면 제가 하는 질문에 답이 만족스럽지 못할 때가 있습니다.
다만, 위의 엑사원 벤치는 가장 대표적인 벤치를 빼놓지 않고, 거의 다 수용한 거라, 다른 기준이 없는 이상 그 점수 외의 다른 평가를 객관적으로 할 수 있는 방법이 없지 않나 싶습니다.