
왠지 어색한 허깅페이스 모델 페이지입니다.
국산 모델이 상위에 랭크 된 기억이 얼마 없는데,
두 개나 최 상위에 있다니요...ㄷㄷㄷ
이전에도 말씀드렸지만, 초거대 모델...2T 이상도 의미가 있고,
또 100~500B 사이도 의미가 있습니다.
솔라 102B 의 성능입니다.

발표 전 쓴 글에서 GLM 4.6 정도 성능을 기대한다고 했었는데요.
모델 크기를 적시하지는 않았지만 조금 더 큰 모델 기준이었고,
100B인 솔라가 일부 앞서거니 뒷서거니 하지만, GLM 4.5 air를 전반적으로 소폭 앞선다는 것은 의미심장합니다.
오픈AI가 공개한 oss 대비 조금 밀리지만,
oss가 120B임을 감안하면 동급으로 볼 수 있을 것 같습니다.
전 같으면 이게 말이 되느냐...
돈 낭비 세금 낭비 라는 ... 말 이전에 아예 될 수 없다...라는 분위기였던 것을 감안하면...
고무적 성과입니다.

한국 모델은 하나 같이 한국어 실력을 주장하는데,
사실 이 부분은 체감의 영역이라는 생각입니다.
심지어 한국어를 특별히 신경을 더 쓴 것도 아닌데, 한국어 능력이 더 좋은 해외 모델도 있으니,
실제 사용자가 써 보고 한국어는 역시 더 잘하네...차이 나게 잘하네...는 되야 의미가 있지 싶네요.
현재 두 선두 주자인 지피티와 제미나이는...한국어 실력이 꽤 좋죠.
그런데 왜 굳이 강조할까... 이건 역시 공개 모델 중에는 한국어 실력이 안 좋은 케이스가 다수이기 때문일 듯 합니다.
그런데 그 일부 괜찮은 곳들이 오픈 소스의 선두 주자들이니...
결국엔 별 의미 없지 않나 싶은데,
지금은 과정 중에 있으니 차츰 더 좋아질 것으로 긍정적 기대를 해볼 수 있겠습니다.
엑사원도 그렇고, 우리나라 모델들은 수학, 코딩 .. 이런 쪽은 좀 신경 쓰는 느낌을 받습니다.
제가 전에 관련한 주장을 펼친 적이 있는데요.
102B도 의미는 있습니다.
그러나 근본적인 경쟁력을 입증하려면 절대 성능도 중요합니다.
이 전 글에 적은 것처럼 500B짜리가 1T짜리를 이길 수 있는 상황이 되었습니다.
그런데 102B로 이길 수는 없습니다.
즉, 아무리 최적화 과정을 지속적으로 밟고 있다고 하더라도,
똑똑한 모델로 다양한 용도로 쓰이려면,
절대 성능을 올려야 되고,
그러려면 모델 크기가 아무리 작아도 400B 전 후는 되어야 할 것인데요.
서비스 운영 도 같이 고려 하여 약간의 타협한다 해도,
250B는 되어야 하지 싶습니다.
솔라가 다음에는 250~350B 사이로 현재 중국의 선두주자들과도 겨룰 수 있는 절대 성능을 구현하는 방향이 되길 바라고 있습니다.
https://solar-chat.upstage.ai/
주소에서 해당 모델을 테스트 하더라고요. 기존 https://console.upstage.ai/ 랑 다른주소라 해당 모델로 올려진듯 합니다.
그리고 모델 훈련까지 3개월뿐이 안되어서 많이 아쉽다고 대표님이 몇일전 영상에서 말씀하시더라고요.
시간만 더 있었으면 더 100b 에서 더 좋은 것이 나왔을 수 있는데 12월30일 전에 마무리 되어야 해서 중간에 멈춘것이라고 하면서요.
써 보았습니다.
나름 괜찮은 답변을 주네요.
그런데 모델 크기 대비 그렇다는 얘기고,
이건 다른 오픈소스도 예외는 아닙니다.
프런티어 모델과의 답변 질의 차이가 아직 꽤 있네요.
국민 AI로 쓰이게 하려면 아직 갈 길이 더 있고,
모델 크기도 더 키워야 할 것 같습니다.
지식 부족 및 할루시네이션이 눈에 잘 띕니다.
이 부분을 잡아야 할 것 같습니다.
이런면이 일부 oss 를 이기는 다른 모델 보다
oss의 만족도가 조금은 더 나은 이유이기도 합니다.
물론 oss도 할루가 좀 있습니다만,
비교 대상인 오픈소스는...이 부분의 개선이 관건이 될 것 같다는 생각이 듭니다.
몇 차례의 질문 중 할루가 반복해서 보였습니다.