중국 LLM의 실질 경쟁력을 봐야 됩니다. : 클리앙

실 체감을 알아 보면 됩니다.

자! 중국의 개발자들이 가장 많이 쓰는 모델이 무엇일까요.

자기네 모델일까요. 그들도 클로드를 씁니다.

오픈소스 모델의 벤치 점수는 이제 더 이상 화제가 잘 되지 않습니다.

제미나이 3.0에 근접한 새 모델이 나와도 이제 신경 쓰는 사람이 없어요.

왜 그런지 잘 생각해 보면,

중국 모델에 알맹이가 없어서 그렇습니다.

점수는 높은데, 알맹이가 부족해서 그렇습니다.

그렇다면 이런 관점을 가져 볼 수 있겠죠.

그 알맹이가 무엇이고, 어떻게 극복이 가능한가로...

제가 그간 여러 번 이야기 한 일관성의 문제가 있습니다.

중국의 쏟아진다는 그 많은 이미지 모델...

나노바나나 1까지는 따라 왔었습니다.

그런데 아직도 그 선에 머물러 있습니다.

그 쏟아진다는 모델 중 각광 받는 것은 최적화를 통해 저 사양에서

꽤 좋은 이미지를 만들어 내는 z-Image 터보 모델 정도입니다.

이게 중요할까요. 아니면 일관성을 달성한 나노바나나 프로가 중요할까요.

즉, 중국 모델의 겉으로 보이는 점수가 아니라

맥점을 쥘 수 있는 기술이 나오는 가를 보면 됩니다.

아직 나오지도 않았는데, 나올 것만 같다... 나올 분위기다...

아직 나오지 않았으면 안 나온 그대로 평가해야 맞지 않을까요.

중국 LLM은 중요 분기점에 해당하는 연구 성과를 낸 적이...없습니다.

화제가 크게 되었던 딥시크R1도 그런 개념은 아닙니다.

지난 수 년간의 경쟁에서 가장 큰 길목을 쥐고 있는 것에 대해

이미 여러 차례 말씀 드린 바 있습니다.

1. 환각

2. 장기 기억

3. 일관성

이런 것들입니다.

자! 예전에 딥시크 R1이 처음 나왔을 때로 돌아가 봅니다.

그 때는 화제가 되었지만 나중에 바늘찾기 벤치로

장기 기억 관련 테스트를 해보니..... 바닥을 박박 기었습니다.

이번에 지피티5.2의 환각 개선은 어떤가요.

소프트웨어 엔지니어링에 있어서 중국 개발자들이

클로드에 집중 되어 있는 이유가 무엇일까요.

자!

제가 아주 쉽지만 놓치고 있는 대목을 하나 말씀드립니다.

요즘 개발자들 사이에 알음알음 나오는 이야기가 무엇이냐면,

API가 상대적으로 비싼 모델이 그 만큼 실수가 적고 더 정확한 결과를 낸다면,

시행착오를 줄이는 것으로 더 비싼 API 비용이 실제로는 더 싸다는 것입니다.

거기에 단지 보이는 비용이 아니라 보이지 않는 사람의 시간도 같이 들어갑니다.

왜 요즘 더 말이 많이 나올까요.

눈에 띄게 이런 부분의 체감이 이전 보다 더 확실하게 다가오는 시점이어서 그렇습니다.

둔감한 사람도 체감할 수 있게 되었다는 것입니다.

막연하게 중국의 오픈소스가 대단한 것 같다. 극복 할 것 같다...

이런 말은 사실 하나마나한 소립니다.

맥점을 쥐는 모습을 보이고 나서 말을 해야지요.

맥점을 쥔 적이 한 번도 없는데... 될 것 같다니요...

지나치게 막연한 느낌 아니겠습니까.

최근에 구글의 장기 기억 관련 또 다른 논문이 나왔습니다.

경쟁력의 핵심을 쥐기 위해 꽤 오래 전부터 준비 해온 이 장기 기억 관련 연구가

일종의 버전업을 해가면서 실질적인 경쟁력의 발판을 바닥부터 쥐고 가고 있다는 것입니다.

오픈AI 또한 과거 소식은 잘 알 수 없지만,

최근에 이 장기 기억 관련 상당한 성과를 보여줍니다.

핵심을 쥐고 가는 것은 보이지 않고,

보이는 오픈소스 점수만 본다면... 실질적인 경쟁력 차이를 알 수 없습니다.

넘어설 리가 없다. 절 대 안 된다... 이런 얘기가 아닙니다.

R1이 지금 보면 대단한 성능은 아니지만, 그 때 딱 한번 격차를 좁혔었고,

다른 여러 이유로 확실히 의미 있는 모습을 보였지만,

그 이후로 격차는 줄어들지 않고 오히려 얼마간 더 벌어졌습니다.

중국의 LLM이 대세가 될 수 있으려면...코어에 해당하는 기술에서

역전까지는 아니어도 역전이 보이는...기술 공개라도 되어야 할 것입니다.

현재까지는... 단 하나도 없습니다.

모두의공원

중국 LLM의 실질 경쟁력을 봐야 됩니다. 15