보이는 화려함을 좋아 한다는 말은 비단 패션에만 국한 되는 것이 아닙니다.
AI 모델을 홍보 할 때 제미나이가 택한 나노바나나 홍보,
GPT가 택한 소라 영상 등이 그 예입니다.
그런데, 정작 AI모델의 성능을 좌우 하는 것은 예나 지금이나 데이터이고,
그 데이터 가공의 중요성은 갈수록 더 커져가는데... 왜 그러한지 이해하지 못하는 케이스가 많습니다.
중국의 여러 모델은 OAI 가 많다가 어느 순간 옮겨서 엔트로픽을 주로 파쿠리 해왔는데,
엔트로픽이 이를 방어하는데 상당히 많이 신경을 쓰면서 어떤 일이 벌어지게 되었는지 보겠습니다.
자! 몇 달 전으로 돌아가 봅니다.
비록 추정치 이긴 합니다만 클로드 오푸스의 파라미터가 약 6T 조금 안되는 것으로 알려져 있습니다.
이것을 API등으로 파쿠리 해가면서 중국 모델의 퍼포먼스 향상은 대단했었습니다.
물론 중국 내부에서의 경쟁 수위는 엄청나고,
파쿠리만 하는 것이 아니라 풍부한 AI인력으로 그들 자체적인 기술 개발도 많이 합니다.
이 둘이 합쳐지니 하드웨어 자원이 부족함에도 선전했던 것인데요.
이게 몇 달 전까지의 이야깁니다.
사실 애써 무시하려 할 뿐 중국 모델의 LLM 성능 자체는 사실상 미국 기업을 거의 따라 잡았었습니다.
격차를 벌릴만 하면 따라 잡고가 반복이 되었던 것인데요.
그게 또 지난 몇 달 사이 바뀝니다.
다시 못 쫒아가기 시작한 것인데요. 때 마침 당시 아모데이가 데이터 파쿠리를 막겠다고,
파쿠리 시도 패턴 및 통계를 언론에 들이밀... 그 때부터였다는 것이 의미심장 합니다.
여튼 두 발자국 차이나던 중국 모델이 상당 기간을 반 발자국 정도로 좁혀 오던 시기를 지나
이제는 다시 한 발 하고도 반 보 정도는 차이가 벌어지게 됩니다.
엔트로픽의 미소스가 그 예이고, 지피티 5.4는 여전히 SOTA입니다.
이러니 중국의 개발자들이 여전히 클로드코드를 선호합니다.
물론 중국 당국의 엄청난 압박 속에서 ... 특히 회사에 직접 조사 들어가서 일일이 노트북, 컴을 뒤지고 다니니,
이게 참 어려운 문제가 되었는데,
그 와중에도 어떻게든 방법을 찾아 클코, GPT 코덱스를 이용합니다.
재밌는 점은요. 지난 2025년 한 해 동안 나온 많은 공개 소스 중에,
중국인들의 것이 대단히 많다는 점인데요.
이 데이터를 미국 기업이 가져갑니다.
심지어 꽤 쓸만해 보이는데...중국의 어느 대학생의 졸업 작품이더군요.
그런 숫자가 많다 보니...그 가운데베테랑도 많고...
이들이 만들어 내는 데이터를 엔트로픽이 가져가며... 기이한 선순환 구조를 만들어 냅니다.
최근에 구글 정책도 변화가 있었습니다.
깃허브와 마소도 그렇고요.
소비자 데이터를 가져가겠다는 것입니다.
기존에도 가져가지 않았느냐.. 더 노골적이고 더 광범위하게...
이를 초반에 우려 하는 사람들이 있었지만,
이젠 좀 익숙해져서 화제 자체가 안 되고 있습니다.
뉴 노멀이 된 것이죠. 과장 조금 보태면...
아무도 내 데이터가 학습에 사용되는지 관심이 없습니다.
이걸 신경 쓰는 것은 기업 보안 관련 정도 입니다.
클코를 사용하는 중국 개발자들...학생들...
이 데이터를 쓰던 앤트로픽.
이 관계가 끊어지면 중국에 불리할까요. 유리할까요.
단기적으로는 좋은 일은 아닙니다.
장기적으로는 ... 알 수 없는 것 같습니다.
클코, 코덱스는 능률 면에서 놓을 수 없는 수단이자 도구입니다.
그런데 이것을 대대적으로.. 다 막아 버리게 되면...
능률이 좀 떨어지겠죠.
그런데 자국 CLI을 사용하게 되면, 또 그 데이터가
중국이 데이터가 되는 것이니,
장기 전망에서는 나쁘지 않을 수 있습니다.
왜 그럼 이런 차이가 벌어지느냐.. 에서 하드웨어도 무시 못합니다.
중국은 1T 이상을 잘 공개하지 않습니다.
제 기억에는 두 가지 를 본 것 같습니다.
더 있는데 못하는 것이 아니라 실제 물리적으로
더 나은 학습 데이터를 확보 하는데 있어서,
6T를 만들 정도의 알짜 데이터가 부족하다는 것입니다.
중국의 그 많은 데이터 ....라고 하기에는 결이 맞지 않습니다.
쓰레기 정보가 아무리 많아도..도움이 될 때가 있었는데,
그 시기는 지나갔습니다.
쓰레기 정보는 방해자로 바뀌었습니다.
미소스가 10T 이야기(루머)가 나오는 판에,
지금의 중국은 2T 만들기도 이제 쉽지 않습니다.
그래서 파고든 것이 증류 기술로
Qwen3.5가 한 달 넘에 큰 흥행을 이어갔던 것은
이 정도 사이즈에 이 정도 성능이 나온 것은 처음이었기 때문입니다.
증류의 달인이 되었습니다.
가장 증류를 잘 하는 기업이 오픈AI와 알리바바라는 것입니다.
그런데 고르게 발전해야지, 증류만 잘하면 되겠습니까.
여튼, 개발자들이 중국 당국의 의지에 따라 점차 앞선 성능을 버리고 오픈소스 환경으로 강제로 돌아가게 되면,
당분간은 악재, 중장기적으로는 알리바바에 호재가 될 것 같습니다.
중국 개발자들이 쏟아내는 데이터...이게 보물이어서 그렇습니다.
그저 개인의견으로 보아주시고요.
제 생각은...나름의 성공 일 것 같습니다.
미국 기준에서 보면 .. 넘어설 가능성은 없을 것 같습니다.
다만 승자 독식에 무게를 두게 될 가능성이 높은 것이 AI인 점과
중국 내부의 강력한 제도적 제한 등을 종합적으로 고려해보면,
나름의 성공 정도로 ...
지금의 구도가 계속 가지 싶습니다.
즉, 미국이 1등 시장 지배자가 되고,
중국이 2등이 되지 싶네요.
망하거나 못할 가능성은... 없다고 봐야겠고요.
제게 정말 큰 공부와 흐름파악이 됩니다
항상 감사합니다
편안한 새벽시간 되세요
댓글 감사합니다.
기존에도 가져가지 않았느냐.. 더 노골적이고 더 광범위하게...
이를 초반에 우려 하는 사람들이 있었지만,
이젠 좀 익숙해져서 화제 자체가 안 되고 있습니다.
뉴 노멀이 된 것이죠. 과장 조금 보태면...
아무도 내 데이터가 학습에 사용되는지 관심이 없습니다.
이걸 신경 쓰는 것은 기업 보안 관련 정도 입니다.
글의 일부지만 이 글의 핵심이라고 할 수 있죠.
관심이나 신경 쓰지않는 개돼지들은 이젠 논제에서 빼도 전혀 문제되지 않은. 그냥 먼저 챙겨먹고 입닦는 거시기가 장땡이죠.
아!!
그게 또 그렇게 보일 수 있네요.
이게 글 쓰는 쪽 에서 쓰는 말입니다.
남의 글 마음대로 베껴 쓴다는 의미로...
얼마전 중국정부서버 털렸다는데 클로드의 최신 ai를 이용했다는 루머가 있습니다.
그리고 중국이 오픈소스를 지향한다기보다 오픈소스로 풀어야 현재 살아남을수 있기 때문입니다.
서비스해서 이익볼수 있는 기업은 업계1황 클로드 밖에 없습니다
다 적자이고 그나마 뒷회사 받쳐줘야 개발 가능한거죠..
중국만큼 자본주의적인 국가가 없습니다.
국가가 오픈소스 해라마라 컨트롤 할 정도로 배포전략에 대해 판단할 능력은 없습니다.
그리고 성능이 올라오면 시댄스처럼 오픈안합니다. 오픈소스는 프론티어 발목잡고 발톱을 숨기고 있는 전략일 뿐이죠