특징 정리 해봅니다.
1. 미국.
애초에 트랜스포머가 나온 곳이고, 스케일의 법칙을 밀고 나가며,
장기 기억, 할루, 일관성, 전문버전(신약개발 등), 도구(MCP, 에이전트 같은..류) 표준 등을 모두 챙기며 리드해 나갑니다.
2. 중국.
장기 기억부터 위에 열거한 모든 요소에서 미국에 뒤쳐지나...
또 이런 부분 하나하나에서 크게 뒤쳐지지 않고 골고루 거의 근접하며,
핵심에서 밀려 있지만...응용에 강합니다.
예를 들어 나노바나나에 거의 근접한 일관성을 가진 이미지 모델을 비롯해
이미지 레이어 분리, 모션 3D 등 ... 일부는 미국도 아직 손대지 못한 영역까지 개척합니다.
벤치 점수에 상대적으로 조금 더 몰입해 체감 성능은 미국 보다 조금 못합니다.
3. 한국.
여러 모델을 써 보면... 자주 손이 가지 않습니다.
이번 솔라와 엑사원의 훌륭한 성과에 저도 박수를 보내지만,
실제 써 보면서...잘 아는 내용을 바탕으로 질문을 했으나
매번 할루시네이션 관련 문제가 보였습니다.
엑사원과 솔라의 성과를 축하하고, 허깅페이스 상단에 모습이 보이는 점은 좋지만,
실 생활에 쓰이기 위한 실 사용성은...
일단 할루부터 반쯤은 잡고 가야 한다는 생각이 들었습니다.
뒤 늦게 따라 잡는 과정에서의 이점은 벤치 점수로 빠르게 드러나지만,
핵심 경쟁력 확보까지 가려면 아직 한참 멀었습니다.
솔라를 써보니,
답변 질이 기대보다 꽤 훌륭해서 놀랐는데,
동시에 거기에 중간 중간 껴 있는 할루는...
자주 반복이 되어 전체 평가를 꽤 낮추게 했습니다.
이 부분의 개선이 큰 과제인 것 같습니다.
다만, 진짜 승부는 지금부터 이며,
제 사견으로는 솔라의 102B는 아주 나중에 서비스 단에서 하고,
지금은 250~500B 사이가 중요하다는 생각입니다.
솔라보다 더 좋은 벤치 점수가 나오는 모델도
그 정도 사이즈로는 일반 사용자마저도 만족 시키는 부분 보다
실망스러운 경우의 빈도가 높을 수 밖에 없어 보입니다.
즉, 요즘 아무리 도구의 도움을 받는다고 하더라도,
기본 지식의 크기가 아무리 최소로 잡아도 250B는 되어야,
다방면의 여러 공적 서비스에 활용하기 좋을 듯 하다는...
제 주장을 전하며 마칩니다.
데이터센터를 기반으로한 거대 모델 만들기로는 규모의 경재가 나오지 않고 전력확보방법도 없는것 같습니다.
핵융합을 누구보다 빠르게 달성하면 또 모르겠으나 결국 중국이 금방 베껴서 따라하지 않을까 싶습니다.
우리가 성공하는 방법을 모르지 성공하는 방법만 알면 달성은 쉬우니 말입니다.