거대 파운데이션 모델이 필요한 이유에 대해 간간히 말씀드렸지만,
6T를 300B 정도로 전문 모델을 증류하고, 전문가 집단을 8개 또는 그 이상으로 구성하는 것과
300B로 학습한 모델은 생각하는 깊이와 사고 능력에서 그 차이가 상당합니다.
추정하는 부분이긴 하지만 구글과 오픈AI의 API 가격을 보면,
파운데이션 모델로 서비스 하고 있을 가능성은 거의 없습니다.
즉, 300~400B 사이의 전문가 모델을 MoE로 구성해 놓았을 것인데요.
여기서 중요한 부분이 전기세로, 중국은 정부에서 거의 무상이나 다름 없게 지원하므로,
API 가격이 쌉니다.
동일 사이즈의 벤치 점수가 비슷해도 체감이 다른 이유는 두 가지로 보고 있습니다.
파운데이션 모델의 크기에 비례하는 지식의 깊이와 추론 능력의 차이입니다.
엑사원의 파운데이션 모델이 어떠한 사이즈인지, 아니면 32B가 자체로 본체인지 알 수 없지만,
제가 기억 하기로는 본체로 알고 있습니다.
6T모델이 답을 도출하기 위해 고민한 확률분포 또한 모방하고 있는 점을 감안하면,
질적 차이는 어쩔 수 없는 대목이라 여기면서도 아쉬움 느낌이 없지 않아 있습니다.
같은 방식이 아니면 따라 잡지 못하고, 벤치 점수와 달리 실제 사용 체감에서는 더욱 도드라집니다.
따라서 이번 26만장 GPU는 이런 거대 모델의 구축을 할 수 있게 함으로써
실 체감이 가능한 ... 그런 모델의 등장을 기대하게 합니다.
이걸 역으로 말하자면 6T 모델이 없는데도 엑사원 4.1 32B 모델이 보여준 성능은
기적과도 같은 일이 아닌가.. 하는 생각도 듭니다. 달성하기 어려운 성능을 달성했다고 보는 것입니다.
일 전에도 말씀드렸지만 중국에서 딥시크 이후 가장 각광 받는 모델이 3가지가 있습니다.
그 중 하나가 키미인데, 공개된 파운데이션 모델이 1T입니다.
그 이전의 딥시크는 683B였고, Qwen의 경우 제 생각에...더 클 것 같습니다.
앞으로 공개 경쟁에서 승리한 쪽이 GPU자원 할당과 지원을 받게 되면,
2T 정도까지는 만들어 증류하는 방식으로 오픈AI나 구글 서비스 품질을
6개월 정도 차이까지 만들어 낼 수 있지 않을까 하는... 기대를 해봄 직 하다는 생각입니다.