아마 두세 번 정도 언급한 것 같습니다만...
근래 워낙 최적화 연구가 잘 되어 가는 관계로...
실제 활용시 적합한 사이즈가 대략 윤곽을 보이고 있는 것 같습니다.
약 250~500B 사이입니다.

SKT AI 모델 https://huggingface.co/skt/A.X-K1
Qwen, GLM 등이 250B 전후의 모델을 내놓는 이유는
아무래도 성능과 서비스 비용의 균형점 정도로 보는 것 같습니다.
이 이하면 성능에서 아쉬움을 볼 수 있고, 이게 체감이 되는 정도이기도 하지만,
더 큰 문제는 벤치로는 보이지 않는 실 체감을 꽤나 많이 깎아 먹는다는 것입니다.
업스테이지는 앞으로 102B 외에 250을 조금 넘기는 모델을 선보여야 되지 싶고,
네이버 역시 마찬가집니다.
SKT의 500B 모델은 이런 면에서 기대를 안고 보고 있었고,
전 전 글에서 GLM-4.6 정도면 좋겠다고 언급한 것을 보신 분이 있을 것입니다.
그런데 공교롭게 공식 성능 비교 데이터에 GLM-4.6이 등장하네요...ㄷㄷㄷ;
1. 추론에 보다 힘을.
SKT의 모델은 일반(논싱킹) 성능 벤치에서는 GLM 대비, 특히 모델이 더 큼에도 불구하고
쳐지는데, 씽킹 모드에서 거의 대등한 수치를 보입니다.
정확히 말하자면 GLM 대비 더 큰 모델임에도 전반적인 성능이 미세하게 약한 편이며,
크기 비교까지 같이 판단했을 때는 0.5세대 뒤쳐진...현재 4.7이 나와 있음을 감안하면 1세대 가량 부족하다고 할 수 있을 것 같습니다.
그런데 반대로 생각하면....첫 모델이 이 정도면 상당히 고무적이라는 생각입니다.
2. 내실의 아쉬움
벤치마크에는 상징하는 것들이 있습니다.
가장 자주 등장하는 AIME25와 같은 것은 수학 능력을 보는 것이고,
LiveCodeBench는 이름 그대로...
AA-LCR 은 장기 기억, 긴 문맥 처리 관련입니다.
대체적으로 수치상으로는 유리할 수 있어도 다양한 사용자 층이 가장 많이 이용하는 체감 영역에 대해서는 쳐지는 모습이고, 그 중 프로그래밍과 수학 등에 힘을 주는 특징이 보입니다.
이전 업스테이지, LG 모델 과 비슷한... 느낌을 주는 점수대를 보입니다.
무슨 말이냐면....왠지 한국 모델들의 공통점 비슷하게 느껴진다고 할까요.
수학, 에이전트, 코딩, 한글 처리 등에서 강점을 보이지만,
일반의 다수 사용자가 챗봇으로 이용시 체감 가능한 부분에선 다소 약한...
긴 문맥과 같은 핵심 경쟁력이 될 수 있는 벤치를 중심으로 보게 되면,
비교 대상 보다 더 큰 모델임에도, 처지는 모습입니다.
한편, GLM4.6의 상징성을 감안하면 대단히 선전했다고도 볼 수 있습니다.
GLM은 현재 중국 AI 모델 중 4채 천왕을 꼽아라 한다면... 그 중 하나에 드는 모델인 점도 있고요.
여튼, 겉으로 보이는 수치에선 잘 따라 잡는 것 같습니다만, 핵심 경쟁력을 말하기엔 아직 일러 보입니다.
잘 나가는 중국 모델과의 비교 우위인...
구글, 오픈AI는 꽤나 핵심 경쟁력 면도 같이 챙기고 있습니다.
우리나라는 패스트팔로워가 갖는 강점을 가지고,
앞으로 꾸준히 개선세가 확인이 될 것으로 보입니다.
또한 A.X.K1은 제한 적 상황에서 나온 결과물이라는 측면에서... 합격점입니다.
제 생각에는 벤치 점수로는 여러 분이 생각하는 그 이상으로 중국 모델과 격차를
빠르게 좁힐 것 같습니다.
머지않아 중국 최신 모델과 거의 대등한 모델이 나올 것으로 보고 있습니다.
말도 안 된다고 생각하시는 분들이 많았지만,
애초부터 전 된다고 보고 있었습니다.
단, 핵심 경쟁력 부분에서 중국 역시 미국 못지 않게 열을 올리고 있는 상황이어서,
이 부분에선 아직 갈 길이 먼 것 같습니다.
기대감을 가지고 국산 AI를 테스트 해 볼 때 마다... 체감은 벤치보다 못하다는 것을
반복해서 경험하고 있습니다.
그럼 어떤 것이 내실이냐... 면,
많습니다. 대표적으로 언급하는 긴 문맥 처리, 할루시네이션 방지 등입니다.
오픈AI가 신 모델 발표 할 때 마다 힘주어 강조하는 할루 개선...
언론에선 잘 주목하지 않지만...중요한 대목이며,
국산 AI가 극복해야 할 중점적 과제가 아닌가 싶습니다.
정리합니다.
보이는 점수 차이를 좁히는 것은 앞으로도 빠르게... 진행 될 것 같다고 전 생각하지만,
내실까지 같이 챙기는 것은 시간을 꽤 들여야 할 것 같습니다.