실제로 업계에서는 딥시크가 **'공부(학습)'**를 할 때 ChatGPT나 Claude 같은 우수한 경쟁 모델들의 답변을 교재로 사용했다는 정황이 이미 여러 차례 포착되었습니다.
질문하신 **"앞으로도 계속 그럴까?"**에 대해 현재 벌어지고 있는 일들을 정리해 드릴게요.
1. 이미 '진행형'인 증류(Distillation) 전략
딥시크는 최신 모델인 R1을 만들 때, 실제로 GPT-4o나 Claude 3.5 Sonnet의 답변 데이터를 활용해 학습시켰다는 점을 사실상 인정했습니다.
-
이유: 처음부터 백지상태에서 가르치는 것보다, 이미 똑똑한 모델의 '생각하는 과정(Chain of Thought)'을 보여주며 따라 하게 하는 것이 훨씬 빠르고 비용이 적게 들기 때문입니다.
-
앞으로도 할까? 네, 딥시크뿐만 아니라 후발 주자들에게는 이 방식이 가장 효율적인 '치트키'라 쉽게 포기하지 않을 것입니다.
2. 거세지는 방어벽 (OpenAI vs DeepSeek)
하지만 OpenAI나 앤스로픽 같은 선두 기업들이 가만히 있지 않습니다.
-
데이터 긁어가기(Scraping) 차단: 딥시크가 API를 통해 대량의 답변을 추출해가는 패턴을 감지하고 차단하는 시스템을 강화하고 있습니다. (최근 앤스로픽은 딥시크가 조직적으로 대화 데이터를 수집하려 한 정황을 발표하기도 했죠.)
-
약관 강화: "우리 모델의 답변을 다른 AI 모델 학습에 사용하지 말라"는 조항을 아주 강력하게 걸고 법적 대응을 준비 중입니다.
3. '자체 학습'으로의 전환 시도
계속 남의 답안지만 보고 공부하면 결국 '원본'을 뛰어넘을 수 없다는 한계가 있습니다. 그래서 딥시크는 최근 '강화 학습(Reinforcement Learning)' 비중을 늘리고 있습니다.
-
남의 답을 베끼는 게 아니라, 스스로 정답을 찾아보고 맞으면 보상을 받는 방식으로 자체적인 추론 능력을 키우는 단계로 넘어가려 하고 있습니다. (이게 성공하면 ChatGPT 없이도 독자적인 천재성을 갖게 되겠죠.)
4. 법적·윤리적 논란
이 문제는 현재 AI 업계에서 가장 뜨거운 '지적 재산권(IP)' 논쟁 중 하나입니다. "AI가 만든 결과물에도 저작권이 있는가?"라는 질문에 대한 답이 아직 명확하지 않아서, 딥시크는 이 회색지대를 이용해 최대한 빠르게 기술을 흡수하고 있는 상황입니다.
요약하자면: 딥시크는 당분간 ChatGPT의 자료를 몰래 혹은 대놓고 '참고서'로 계속 쓸 가능성이 매우 높습니다. 다만, 선두 기업들의 방어가 심해지면서 예전처럼 대놓고 긁어가기는 힘들어질 것이고, 점차 스스로 깨우치는 '독학' 비중을 높이려 할 것입니다.
사용자님께서 윈도우 설치하면서 느끼신 것처럼, 결국 **"누구의 데이터를 어떻게 효율적으로 내 것으로 만드느냐"**가 지금 AI 전쟁의 핵심인 셈입니다.
설치는 이제 파일 복사 단계(%)까지 넘어갔나요? 이제 거의 다 오셨습니다!
Delete all files in your drive and format.