deepseek 관련하여 읽어볼만한 글입니다. : 클리앙

Chatgpt 번역 입니다.

원문은 출처를 참고 해주세요.

요약은 제일 아래에 첨부하겠습니다.

제가 책임을 느낍니다. 그리고 그 글에서 강조했던 두 가지 중요한 요점(순수한 강화학습을 통한 Emergent Chain-of-Thought과 증류(distillation)의 강력함)을 포함해 제 주장을 여전히 지지합니다. 비용 절감(이 내용은 Sharp Tech에서 확장하여 다룬 바 있음)과 반도체 수출 제한 조치(chip ban)의 영향도 언급했지만, 이 관찰들은 현재 AI 기술의 국지적인 상태에 너무 국한되어 있었습니다. 지난 72시간 동안 이 뉴스가 전체적인 메타 담론, 특히 미국과 중국과의 관계에서 어떤 광범위한 함의를 가질지 예측하지 못한 점에서 완전히 실패했습니다.

이런 실수를 한 적이 있었나요?

있습니다. 2023년 9월 화웨이가 SMIC에서 제작한 7nm 칩을 탑재한 Mate 60 Pro를 발표했을 때도 비슷한 실수를 했습니다. 이 칩의 존재는 SMIC가 1년 전에 7nm 칩을 제작한 사실을 알고 있었던 사람들에게는 놀라운 일이 아니었죠(저는 그 이전에 이를 이미 언급한 바 있습니다). TSMC는 DUV(Deep Ultraviolet) 리소그래피만을 사용하여 7nm 칩을 대량 생산한 바 있으며(7nm 기술의 후속 버전은 EUV를 사용), Intel도 DUV만으로 10nm(TSMC 7nm에 해당)를 제작했지만, 수익성을 가진 수율을 내지는 못했습니다. 따라서 SMIC가 기존 장비를 사용해, 특히 수율을 고려하지 않는다면, 7nm 칩을 출하할 수 있다는 생각은 전혀 놀라운 일이 아니었습니다—적어도 제게는요.

그러나 제가 완전히 예상하지 못한 것은 워싱턴 D.C.에서의 과잉 반응이었습니다. 화웨이 Mate 60 Pro에 의해 촉발된 칩 금지 확대가 바이든 행정부가 칩 판매를 허가 기반 구조로 전환하는 것으로 정점을 찍게 되었죠. 제가 느끼기에 이번 사건에서도 비슷한 일이 벌어진 것 같습니다. DeepSeek이 달성한 세부적인 내용과 그렇지 않은 점보다도 이 발표에 대한 반응과 그 반응이 사람들의 기존 가정에 대해 말해주는 것이 더 중요해 보입니다.

그럼 DeepSeek이 발표한 것은 무엇인가요?

이번 주말 대혼란의 가장 직접적인 원인은 R1이라는 모델의 발표입니다. 이 모델은 OpenAI의 o1과 유사한 추론 모델입니다. 그러나 이 혼란의 많은 부분을 초래한 사실들—예를 들어 DeepSeek의 훈련 비용 등—은 사실 크리스마스 즈음에 발표된 V3 발표 때 함께 나왔습니다. 더욱이 V3를 뒷받침했던 많은 혁신들은 작년 1월에 V2 모델의 출시와 함께 밝혀졌습니다.

이 모델 명명 방식이 OpenAI의 가장 큰 잘못인가요?

두 번째로 큰 잘못입니다. 첫 번째는 나중에 다루겠습니다.

V2 모델은 무엇이며, 왜 중요했나요?

DeepSeek-V2 모델은 두 가지 중요한 혁신을 도입했습니다: DeepSeekMoE와 DeepSeekMLA입니다. DeepSeekMoE에서 "MoE"는 "Mixture of Experts"의 약자입니다. 일부 모델(GPT-3.5 등)은 훈련과 추론에서 전체 모델을 활성화합니다. 그러나 특정 주제에 모든 모델 부분이 필요하지는 않습니다. MoE는 모델을 여러 "전문가"로 나누고, 필요한 전문가만 활성화합니다. 예를 들어 GPT-4는 MoE 모델로, 약 1100억 개의 매개변수를 가진 16개의 전문가로 구성된 것으로 알려져 있습니다.

DeepSeekMoE는 이 개념을 개선해 더 세분화된 전문 전문가와 일반적인 역량을 가진 공유 전문가를 구분했습니다. 중요한 것은 DeepSeekMoE가 훈련 중 통신 오버헤드를 줄이면서 효율적인 추론을 가능하게 했다는 점입니다.

DeepSeekMLA는 더욱 큰 혁신이었습니다. 추론의 가장 큰 제약 중 하나는 메모리 요구량입니다. 모델을 메모리에 로드해야 할 뿐만 아니라 전체 컨텍스트 창도 로드해야 하죠. DeepSeekMLA(다중 헤드 잠재 주의)는 키-값 저장소를 압축해 추론 시 메모리 사용량을 크게 줄일 수 있었습니다.

이게 무슨 뜻인지 잘 모르겠어요.

이 혁신들의 핵심적인 의미—그리고 여러분이 이해해야 할 부분—은 V3에서 명확하게 드러났습니다. V3는 로드 밸런싱(통신 오버헤드를 추가적으로 줄임)과 훈련 중 다중 토큰 예측(각 훈련 단계를 더욱 밀집시키며 다시 한번 오버헤드를 줄임)을 추가했습니다. 그 결과, V3는 훈련 비용이 충격적일 만큼 저렴했습니다. DeepSeek는 모델 훈련에 278만 8000 H800 GPU 시간을 사용했다고 주장했으며, 이는 GPU 시간당 $2의 비용으로 계산했을 때 총 $557만 6000에 불과합니다.

이 숫자는 너무 낮아 보이는데요.

DeepSeek는 이러한 비용이 최종 훈련 실행 비용만을 포함하며, 다른 모든 비용은 제외했다고 분명히 밝혔습니다. V3 논문에서 이렇게 설명합니다:

마지막으로, DeepSeek-V3의 경제적인 훈련 비용을 다시 한번 강조합니다. 이는 알고리즘, 프레임워크, 하드웨어의 최적화된 공동 설계를 통해 이루어졌습니다. 사전 훈련 단계 동안, DeepSeek-V3를 1조 토큰 당 훈련하는 데 18만 H800 GPU 시간이 필요하며, 이는 2048개의 H800 GPU를 가진 클러스터에서 3.7일 만에 완료됩니다. 따라서, 우리의 사전 훈련 단계는 두 달도 채 되지 않아 완료되며, 총 266만 4000 GPU 시간이 소요됩니다. 여기에 문맥 길이 확장을 위해 11만 9000 GPU 시간, 후속 훈련을 위해 5000 GPU 시간이 추가로 필요하며, 최종적으로 DeepSeek-V3의 전체 훈련에는 278만 8000 GPU 시간이 소요됩니다. H800 GPU의 렌탈 비용이 시간당 $2라고 가정했을 때, 총 훈련 비용은 $557만 6000입니다. 여기에서 언급된 비용은 DeepSeek-V3의 공식 훈련만 포함하며, 아키텍처, 알고리즘 또는 데이터에 대한 사전 연구 및 실험 비용은 제외됩니다.

따라서, DeepSeek라는 회사를 $557만 6000에 복제할 수는 없습니다.

여전히 믿을 수 없는데요.

사실, V3 아키텍처를 이해한다면, 반박할 책임은 의심하는 사람들에게 있습니다. 위에서 언급한 DeepSeekMoE를 기억하세요: V3는 6710억 개의 매개변수를 가지고 있지만, 토큰당 활성화되는 전문가는 단 370억 개의 매개변수만을 계산합니다. 이는 토큰당 3333억 FLOPs(초당 부동소수점 연산)를 의미합니다. 여기서 또 다른 DeepSeek의 혁신을 언급해야 합니다. 매개변수는 BF16 또는 FP32 정밀도로 저장되지만, 계산에는 FP8 정밀도를 사용했습니다. 2048개의 H800 GPU는 3.97 엑사플롭스(즉, 3970억 억 FLOPs)의 용량을 가지고 있습니다. 훈련 데이터 세트는 총 14조 8000억 개의 토큰으로 구성되어 있었는데, 수학적으로 계산해 보면 278만 8000 H800 시간이 V3 훈련에 충분하다는 것을 알 수 있습니다. 다시 말하지만, 이 비용은 최종 실행에만 해당되며, 총비용은 아닙니다. 하지만 이 숫자는 현실적입니다.

Scale AI의 CEO Alexandr Wang은 DeepSeek가 H100 GPU 5만 개를 보유하고 있다고 말했어요.

Wang이 이 정보를 어디서 얻었는지 모르겠습니다. 아마도 2024년 11월 Dylan Patel의 트윗을 참고한 것 같습니다. 이 트윗은 DeepSeek가 "5만 개 이상의 Hopper GPU"를 보유하고 있다고 주장했습니다. 하지만 H800도 Hopper GPU입니다. 단, H100에 비해 메모리 대역폭이 훨씬 제한되어 있습니다.

DeepSeek의 많은 결정—모델 구조와 훈련 인프라를 포함해—는 H800 사용에 최적화되어 있다는 점을 상기해야 합니다. 만약 H100을 사용할 수 있었다면, 더 큰 훈련 클러스터와 함께 메모리 대역폭 문제를 극복하려는 최적화에 신경 쓰지 않았을 가능성이 높습니다.

그러면 이게 칩 금지 위반인가요?

아니요. H100은 칩 금지 대상이었지만, H800은 아니었습니다. 대부분의 사람들은 최첨단 모델을 훈련하려면 더 높은 칩 간 메모리 대역폭이 필요하다고 가정했지만, DeepSeek는 H800의 대역폭 부족을 극복하는 모델 구조와 인프라 최적화에 집중했습니다.

다시 말해, DeepSeek가 이 모델을 설계하면서 내린 모든 결정은 H800이라는 제약이 있을 때만 의미가 있습니다. 만약 DeepSeek가 H100에 접근할 수 있었다면, 더 적은 최적화와 더 큰 훈련 클러스터를 사용했을 것입니다.

그렇다면 V3는 최첨단 모델인가요?

V3는 OpenAI의 4o와 Anthropic의 Sonnet-3.5와 경쟁할 만하며, Llama의 가장 큰 모델보다는 뛰어난 것으로 보입니다. DeepSeek가 이러한 모델들을 증류(distillation)하여 높은 품질의 데이터를 사용해 V3를 훈련했을 가능성이 큽니다.

증류(distillation)란 무엇인가요?

증류는 다른 모델로부터 학습을 추출하는 기법입니다. 입력값을 "선생님 모델"에 보내 출력값을 기록하고, 이를 "학생 모델"을 훈련하는 데 사용합니다. GPT-4 Turbo 같은 모델은 이런 방식으로 GPT-4에서 만들어졌습니다. 증류는 자사 모델에서는 쉽지만, API를 통해서나 심지어 채팅 클라이언트를 통해서도 비공식적으로 실행할 수 있습니다.

증류는 일반적으로 서비스 약관을 위반하지만, 이를 차단하는 유일한 방법은 IP 차단, 속도 제한 등을 통해 접근을 막는 것입니다. 이는 모델 훈련에서 광범위하게 이루어지는 것으로 알려져 있으며, GPT-4o 수준 품질로 수렴하는 모델들이 점점 더 많아지는 이유입니다. DeepSeek가 4o나 Claude를 증류했다는 직접적인 증거는 없지만, 그렇게 하지 않았다면 오히려 이상할 것입니다.

증류는 최첨단 모델에 나쁜 건가요?

그렇습니다! 긍정적인 면에서는 OpenAI, Anthropic, Google 모두 증류를 사용해 소비자 애플리케이션용 추론 모델을 최적화합니다. 하지만 부정적인 면에서는 최첨단 모델 훈련 비용을 그들이 모두 부담하고, 다른 모든 경쟁자들이 그 비용을 "무임승차"하고 있다는 점입니다.

이것이 아마도 Microsoft와 OpenAI 간의 느린 결별을 초래하는 핵심적인 경제적 요인일 것입니다. Microsoft는 고객에게 추론 서비스를 제공하는 데 관심이 있지만, $1000억 달러 규모의 데이터 센터를 구축하여 곧 상품화될 가능성이 큰 최첨단 모델을 훈련하는 데는 그다지 열의가 없습니다.

그래서 빅 테크 주식 가격이 하락한 건가요?

장기적으로 보면 모델의 상품화와 추론 비용의 감소는 빅 테크에 좋습니다. Microsoft가 더 적은 비용으로 고객에게 추론 서비스를 제공하거나, 추론 비용이 낮아지면서 사용량이 급증하는 미래를 상상해 보세요. 또 다른 큰 수혜자는 Amazon입니다. AWS는 고품질 모델을 자체적으로 개발하는 데 실패했지만, 고품질 오픈 소스 모델이 있다면 훨씬 저렴하게 이를 제공할 수 있습니다.

Apple도 큰 수혜자입니다. 추론 시 메모리 요구 사항이 크게 감소하면 디바이스 자체에서 추론을 실행하는 "엣지 추론"이 훨씬 더 실현 가능해지고, Apple은 이 분야에서 최고의 하드웨어를 보유하고 있습니다. Apple Silicon은 통합 메모리를 사용하여 CPU, GPU, NPU(신경 처리 장치)가 공유 메모리 풀에 액세스할 수 있습니다. 이는 Apple의 고급 하드웨어가 추론에 있어 최고의 소비자 칩을 보유하고 있음을 의미합니다(Nvidia 게임 GPU는 최대 32GB의 VRAM만 제공하지만, Apple 칩은 최대 192GB RAM을 제공합니다).

Meta는 아마도 가장 큰 승자가 될 것입니다. AI를 통해 Meta의 비즈니스가 모든 면에서 혜택을 본다는 점을 이미 작년에 설명한 바 있습니다. 추론 비용의 큰 장벽이 제거되면 Meta가 목표로 하는 비전이 훨씬 더 달성 가능해질 것입니다.

Google은 아마도 가장 타격을 받을 것입니다. 하드웨어 요구 사항 감소는 TPU에서 오는 Google의 상대적 이점을 약화시킬 것입니다. 더 중요한 것은 제로 비용 추론 세계에서는 검색을 대체하는 제품이 더 유용하고 현실적으로 다가온다는 점입니다. 물론 Google도 비용 절감의 혜택을 받겠지만, 현재 상태에서의 변화는 Google에게는 순손실일 가능성이 큽니다.

왜 주식 가격이 하락하고 있다고 보나요? 방금 긍정적인 전망을 얘기하지 않았나요?

제가 말한 긍정적인 전망은 장기적인 것입니다. 반면, 오늘의 주식 시장은 단기적인 충격에 반응하고 있습니다. R1의 존재는 시장에 충격을 준 것으로 보입니다.

그런데 아직 R1에 대해 제대로 설명하지 않았잖아요.

R1은 OpenAI의 o1처럼 추론 모델입니다. 이는 문제를 논리적으로 생각할 수 있는 능력을 제공하며, 특히 코딩, 수학, 논리 같은 분야에서 훨씬 더 높은 품질의 결과를 만들어냅니다(하지만 사실 이 모든 것은 하나의 문제로 귀결됩니다).

V3보다 더 인상적인 모델인가요?

사실 V3가 많은 논란을 일으킨 핵심적인 동력이 되는 모델입니다. R1은 중요한 의미를 지니고 있지만, o1이 유일한 추론 모델로 시장을 선도했던 신화를 무너뜨렸다는 점이 두드러집니다.

R1의 의미는 두 가지로 나눌 수 있습니다. 첫째, R1이 존재한다는 사실 자체가 OpenAI가 특별히 독보적이지 않다는 것을 보여줍니다. 둘째, DeepSeek는 R1의 가중치를 공개했습니다(데이터는 공개하지 않았으므로, 이를 "오픈 소스"라고 완전히 표현하기는 어렵습니다). 이는 OpenAI에 비용을 지불하지 않고도 R1을 서버나 로컬에서 실행할 수 있으며, 그 비용은 훨씬 더 저렴하다는 것을 의미합니다.

DeepSeek는 어떻게 R1을 만들었나요?

DeepSeek는 R1과 R1-Zero라는 두 가지 모델을 만들었습니다. 제 생각에 R1-Zero가 더 큰 의미를 가지고 있습니다. 제가 지난 화요일의 업데이트에서 강조했던 점도 바로 이 부분입니다.

R1-Zero는 제게 더 큰 의미가 있습니다. 논문에서는 이렇게 설명합니다:

이 논문에서 우리는 순수 강화학습(RL)을 통해 언어 모델의 추론 능력을 개선하기 위한 첫걸음을 내딛었습니다. 우리의 목표는 지도 학습 데이터 없이 LLM이 스스로 발전할 수 있는 가능성을 탐구하는 것입니다. 이를 위해 DeepSeek-V3-Base를 기반 모델로 사용하고, GRPO를 RL 프레임워크로 활용해 추론 성능을 개선했습니다. 훈련 중 DeepSeek-R1-Zero는 강력하고 흥미로운 추론 행동을 자연스럽게 배웠습니다. 수천 번의 RL 단계를 거친 후, DeepSeek-R1-Zero는 추론 벤치마크에서 뛰어난 성능을 보입니다. 예를 들어, AIME 2024의 pass@1 점수는 15.6%에서 71.0%로 증가했으며, 다수결 투표를 적용하면 점수는 86.7%로 더욱 향상되어 OpenAI-o1-0912와 동등한 성능을 보입니다.

강화학습은 모델에 데이터를 제공하고 보상 함수를 설정하는 기술입니다. 고전적인 예는 AlphaGo로, DeepMind는 모델에 바둑의 규칙과 "게임에서 이기는 것"이라는 보상 함수를 제공한 후, 모델이 스스로 나머지를 학습하도록 했습니다. 이 기술은 사람 중심의 방식보다 훨씬 더 효과적이라는 것이 입증되었습니다.

그런데 지금까지의 LLM은 인간 피드백을 동반한 강화학습(RLHF)을 사용했습니다. 인간이 모델을 가이드하고, 어려운 선택을 도와주며, 보상이 명확하지 않은 상황에서 방향을 제시했습니다. RLHF는 GPT-3을 ChatGPT로 변모시키는 데 핵심적인 혁신이었으며, 잘 구성된 문단, 간결한 답변, 무의미한 내용으로 이어지는 것을 방지했습니다.

R1-Zero는 이 "HF" 부분을 없애고 순수 강화학습만 사용합니다. DeepSeek는 모델에 수학, 코드, 논리 질문을 제공하며, 두 가지 보상 함수를 설정했습니다: 하나는 정답에 대한 보상, 또 하나는 올바른 형식(생각의 과정을 포함한)을 사용한 답변에 대한 보상입니다. 이 기술은 매우 간단한 방법으로 수행되었습니다. 모델이 다양한 답변을 시도한 후, 두 보상 함수를 기준으로 평가되었습니다.

훈련 과정 중 모델은 스스로 "추론"과 "사고 과정"을 배우기 시작했습니다. DeepSeek는 이를 "아하(Aha) 순간"이라고 불렀습니다.

DeepSeek-R1-Zero의 훈련 과정에서 특히 흥미로운 현상은 "아하 순간"의 발생입니다. 이는 모델이 중간 단계에서 학습하여 문제에 더 많은 사고 시간을 할애하고, 초기 접근 방식을 재평가하기 시작했을 때 나타납니다. 이 행동은 모델의 추론 능력이 성장하고 있음을 보여주는 증거일 뿐만 아니라, 강화학습이 예기치 않으면서도 정교한 결과를 가져올 수 있다는 점을 보여주는 매혹적인 예입니다.

이 순간은 단지 모델의 "아하 순간"일 뿐만 아니라, 이를 관찰한 연구자들에게도 "아하 순간"이었습니다. 이는 강화학습의 힘과 아름다움을 보여주는 강력한 사례입니다. 모델이 문제를 해결하는 방법을 명시적으로 가르치지 않고도, 적절한 인센티브만 제공하면 모델이 자율적으로 고급 문제 해결 전략을 개발할 수 있습니다. 이 "아하 순간"은 인공 시스템에서 새로운 수준의 지능을 열어가는 강화학습의 잠재력을 강력하게 상기시켜주는 사례입니다. 이는 앞으로 더 자율적이고 적응력이 높은 모델을 개발하는 길을 열어줍니다.

이 순간은 "The Bitter Lesson(쓴 교훈)"의 가장 강력한 확인 중 하나입니다. AI가 추론하는 방법을 가르칠 필요는 없으며, 충분한 계산 능력과 데이터를 제공하면 AI 스스로 학습할 수 있습니다!

물론 완전히 그런 것은 아닙니다. R1-Zero는 추론을 하지만, 인간이 이해하기 어려운 방식으로 합니다. 논문의 서문으로 돌아가 보겠습니다:

그러나 DeepSeek-R1-Zero는 가독성이 떨어지고, 언어 혼합 같은 문제에 직면합니다. 이러한 문제를 해결하고 추론 성능을 더욱 강화하기 위해, 우리는 초기 데이터를 소량 도입하고 다단계 훈련 파이프라인을 포함한 DeepSeek-R1을 도입합니다. 구체적으로, 우리는 수천 개의 초기 데이터를 수집하여 DeepSeek-V3-Base 모델을 미세 조정한 후, DeepSeek-R1-Zero와 유사한 추론 지향 RL을 수행합니다. RL 프로세스에서 수렴에 가까워질 때, 우리는 RL 체크포인트에서 거절 샘플링(rejection sampling)을 통해 새로운 SFT 데이터를 생성하고, DeepSeek-V3의 다른 도메인(예: 작문, 사실 질문 응답, 자기 인식)의 지도 데이터와 결합해 다시 훈련합니다. 새 데이터를 통해 미세 조정을 완료한 체크포인트는 모든 시나리오에서 프롬프트를 고려한 추가 RL 과정을 거칩니다. 이러한 단계를 거쳐 우리는 DeepSeek-R1이라는 체크포인트를 얻었으며, 이는 OpenAI-o1-1217과 동등한 성능을 달성했습니다.

이것은 OpenAI가 o1을 만든 방식과 유사합니다. DeepSeek는 모델이 체계적으로 사고하는 방식(chain-of-thought)을 배우도록 여러 예제를 제공했으며, 이후 강화학습을 통해 추론 능력을 향상시켰습니다. 여기에 여러 편집 및 정제 단계를 추가하여 인간이 이해할 수 있는 방식으로 결과를 만들어냈습니다. 결과적으로 o1과 경쟁할 수 있는 모델이 탄생한 것입니다.

다시 한 번, DeepSeek가 R1을 훈련하는 과정에서 증류(distillation)의 혜택을 받았을 가능성이 큽니다. 그러나 이는 매우 중요한 시사점을 담고 있습니다. 우리는 AI 모델이 다른 AI 모델을 가르치고, AI 모델이 스스로 학습하는 상황을 보고 있습니다. AI 발전의 가속화가 실시간으로 이루어지고 있는 것입니다.

그래서 우리가 AGI(인공지능 일반화)에 가까워진 건가요?

그렇게 보입니다. 이 점이 Microsoft와의 결별 이후 Softbank(그리고 Masayoshi Son이 이끄는 투자자 그룹)가 OpenAI에 자금을 지원하려는 이유일 것입니다. 이들은 우리가 AI 발전의 가속화, 즉 AI "이륙" 단계에 도달하고 있다고 믿는 것으로 보입니다.

그런데 R1이 이제 선두에 선 건가요?

그렇지는 않습니다. 이는 과장된 주장입니다. R1은 o1과 경쟁할 수 있는 모델이지만, o1-Pro에서 일부 증류를 통해 나온 것으로 보이는 결함도 드러났습니다. 반면, OpenAI는 훨씬 강력한 추론 모델인 o3을 이미 시연했습니다. DeepSeek는 확실히 효율성 면에서 선두에 있지만, 전체적으로 선두라고 보기는 어렵습니다.

그럼 왜 사람들이 이렇게 난리인가요?

몇 가지 요인이 있습니다. 첫째, 중국이 미국의 선도적인 AI 연구소와 대등한 수준으로 올라왔다는 충격입니다. 많은 이들은 중국이 소프트웨어에서 미국만큼 뛰어나지 않다고 생각했지만, 실제로 중국은 매우 숙련된 소프트웨어 산업을 가지고 있으며, 특히 AI 모델 개발에서 훌륭한 실적을 내왔습니다.

둘째, V3의 낮은 훈련 비용과 DeepSeek의 낮은 추론 비용이 있습니다. 이는 저에게도 큰 놀라움이었지만, 그 수치는 실제로 가능성이 있습니다. 이는 결과적으로 Nvidia와 같은 기업에 대해 많은 이들을 긴장하게 만들고 있습니다.

셋째, DeepSeek가 칩 금지 조치에도 불구하고 이 모든 것을 달성했다는 점입니다. 다시 말하지만, 칩 금지에 큰 허점이 있었지만, DeepSeek는 합법적으로 H800을 사용했을 가능성이 큽니다.

Nvidia를 보유하고 있어요! 망한 건가요?

Nvidia가 직면한 도전 과제는 이번 뉴스가 제기하는 몇 가지 중요한 측면 때문입니다. Nvidia는 크게 두 가지 강력한 "해자"를 가지고 있습니다.

CUDA는 기본 언어입니다. 모델을 프로그래밍하는 데 가장 널리 사용되는 언어는 CUDA이며, 이는 Nvidia 칩에서만 작동합니다.

Nvidia는 칩을 통합하는 능력에서 상당한 우위를 가지고 있습니다. Nvidia는 여러 칩을 결합해 하나의 가상 GPU로 만드는 데 있어서 엄청난 선두를 유지하고 있습니다.

이 두 가지는 상호작용을 통해 Nvidia를 강력하게 만듭니다. 앞서 언급했듯이, DeepSeek가 H800을 사용하지 않고 H100을 사용할 수 있었다면, 훨씬 더 큰 훈련 클러스터와 더 적은 최적화를 통해 작업을 수행했을 것입니다. 미국 연구소들은 Nvidia가 제공하는 점점 더 강력해지는 시스템을 사용해 왔고, 이는 Nvidia에 비용을 지불하는 것이 더 쉬운 경로라는 것을 의미했습니다. 그러나 DeepSeek는 Nvidia에 의존하지 않는 다른 방법도 가능하다는 것을 보여줬습니다. H800처럼 약한 하드웨어를 사용하는 상황에서도 최적화로 엄청난 결과를 낼 수 있다는 것을 입증한 것입니다.

그럼에도 Nvidia의 미래에 긍정적인 요소도 있습니다. 첫째, DeepSeek가 보인 방식이 H100이나 앞으로 나올 GB100 같은 칩에 적용된다면 얼마나 강력한 성능을 발휘할지 생각해 보십시오. 계산 능력을 더 효율적으로 사용했다고 해서 더 강력한 계산 능력이 필요 없다는 의미는 아닙니다. 둘째, 더 낮은 추론 비용은 장기적으로 더 많은 사용량을 촉진할 것입니다. Microsoft CEO 사티아 나델라가 늦은 밤 트윗에서 한 말을 주목하세요. 이는 분명히 시장을 겨냥한 것이었습니다:

"추론 비용이 감소하면 AI 사용이 기하급수적으로 증가할 것입니다."

셋째, R1과 같은 추론 모델은 더 많은 계산 능력을 사용해 뛰어난 성능을 발휘합니다. AI의 성능이 더 많은 계산 능력에 따라 증가하는 한, Nvidia는 계속해서 이익을 볼 것입니다.

그럼에도 불구하고 모든 것이 긍정적인 것은 아닙니다. 최소한 DeepSeek의 효율성과 폭넓은 가용성은 Nvidia의 가장 낙관적인 성장 이야기에 상당한 의문을 제기합니다. 특히, 추론에 대한 더 많은 최적화는 AMD GPU와 같은 독립형 칩에서도 충분히 가능한 방법을 탐구할 가능성을 열어줍니다.

결론적으로 Nvidia는 여전히 강력한 위치에 있으며 없어지지 않을 것입니다. 하지만 Nvidia 주식은 이제 가격에 반영되지 않은 더 큰 불확실성에 직면하게 되었습니다. 그리고 이것은 모든 시장에 영향을 미치게 될 것입니다.

그럼 칩 금지 조치는 어떻게 되는 건가요?

칩 금지 조치의 중요성은 사실 이번 DeepSeek 발표로 더욱 강조되었다고 볼 수 있습니다. 미국의 소프트웨어 리더십이 빠르게 사라지고 있는 상황에서, 칩은 여전히 물리적인 물건이며 이를 중국에 차단하는 것은 정당한 조치입니다.

하지만 동시에, 칩 금지 조치가 DeepSeek와 같은 혁신을 직접적으로 촉진했다는 사실을 겸허히 받아들여야 합니다. DeepSeek의 최적화 기술은 단지 밀수된 Nvidia 칩뿐만 아니라 Huawei의 Ascend 칩에서도 잘 작동할 가능성이 높습니다. 사실, 칩 금지 조치의 주요 결과 중 하나가 Nvidia 주가의 하락으로 나타났다는 점은 역설적입니다.

제가 우려하는 것은 칩 금지 조치 뒤에 있는 사고방식입니다. 미래에 혁신을 통해 경쟁하기보다는 과거의 혁신을 억제하는 방식으로 경쟁하려는 태도입니다. 단기적으로는 효과가 있을지 몰라도, 장기적으로는 칩과 반도체 장비라는 미국이 지배적인 위치를 차지하고 있는 산업에서 경쟁의 씨앗을 뿌리는 꼴이 됩니다.

AI 모델도 비슷한 상황인가요?

AI 모델은 좋은 예입니다. OpenAI의 가장 큰 잘못을 언급하겠다고 했던 부분을 이제 다뤄보겠습니다. 저는 2023년 바이든의 AI 행정 명령에 대해 "Attenuating Innovation(혁신의 약화)"에서 이렇게 썼습니다:

규제가 기존 기업들에게 유리하게 작용한다는 가정을 받아들인다면, 초기 AI 승자들이 워싱턴 D.C.에서 AI에 대한 경각심을 불러일으키는 데 가장 투자한 것이 눈에 띕니다. 이들은 AI의 위험성이 높다고 주장하지만, 그 위험성이 너무 크다면 자신들의 연구를 중단했어야 했겠죠. 대신, 이들은 스스로를 "책임 있는" 개발자로 포장하며 규제를 요구하고 있습니다. 만약 규제 우려가 새로운 경쟁자들을 약화시킨다면 그들에게는 더더욱 좋은 일입니다.

이 글은 특히 OpenAI와 전반적인 샌프란시스코 AI 커뮤니티를 겨냥한 것이었습니다. 지난 몇 년간 우리는 AI의 위험성에 대한 고민이 넘쳐나는 것을 보았습니다. 그러나 이 논의는 결국 AI 기술을 통제하려는 시도로 이어졌습니다. 2019년 GPT-2 발표 당시 OpenAI의 발표문을 보세요:

GPT-2의 대규모 언어 모델이 잘못된 정보, 편향된 정보, 남용 언어 등을 대량 생성하는 데 사용될 수 있는 우려 때문에, 우리는 더 작은 버전만 공개하기로 했습니다. 우리는 데이터 세트, 훈련 코드 또는 GPT-2 모델 가중치를 공개하지 않습니다.

하지만 6년이 지난 지금, 이 모든 노력에도 불구하고 전 세계가 더욱 강력한 AI 모델 가중치에 접근할 수 있게 되었습니다. OpenAI의 통제 전략은 완전히 실패했습니다. 그 사이, 최첨단 모델이 폐쇄적으로 운영되면서 얼마나 많은 혁신이 희생되었을까요?

AI 재앙에 대해 걱정하지 않는 건가요?

걱정할 만한 이유는 충분히 이해합니다. 특히 AI가 스스로 AI를 훈련하고 논리적 사고를 학습하는 단계에 도달했기 때문에 더욱 그렇습니다. 그러나 이 흐름을 막을 방법은 없습니다. 오히려 AI의 발전 속도를 감안하면, 더욱 개방적인 환경이 필요하다고 믿습니다. 더 많은 AI 모델이 존재해야지, 하나의 통제된 AI 모델에 모든 것이 좌우되는 것은 바람직하지 않습니다.

그런데 왜 중국이 모델을 오픈 소스로 공개하나요?

정확히 말하면 DeepSeek가 그렇습니다. DeepSeek의 CEO인 량 원펑은 인터뷰에서 오픈 소스가 인재 유치에 핵심적이라고 말했습니다:

"파괴적인 기술 앞에서 폐쇄적인 접근 방식으로 만든 해자는 일시적입니다. OpenAI의 폐쇄적인 접근 방식조차 다른 이들이 따라잡는 것을 막을 수 없습니다. 따라서 우리는 조직과 기술 문화 자체가 혁신을 가능하게 하는 역량을 구축하는 데 초점을 맞춥니다. 이것이 우리의 해자입니다."

량 원펑은 오픈 소스가 문화적 행동이라며 상업적 행동이 아니라고 말했습니다. 이는 기술적 인재들에게 큰 성취감을 줄 수 있는 방식이며, 다른 기업들로부터 존경을 받을 수 있는 방법이라고 덧붙였습니다.

요약

벤톰슨의 딥시크 이펙트 분석: AI 모델 개발의 새로운 지평과 그 영향

• 본 분석은 벤톰슨이 제기한 딥시크(DeepSeek) AI 모델의 효율성과 그 파장에 대한 논의로, 2023년 중국 화웨이의 7나노 칩 발표 이후 미국이 칩 판매를 허가 기반으로 전환한 사건과 유사한 맥락에서 시작됩니다.

• 딥시크의 핵심은 MoE(Mixture of Experts)와 MLA(Multi-head latent attention)를 활용하여 훈련 및 추론 효율을 극대화한 점에 있습니다. MoE는 특정 주제에 맞는 전문가만 활성화시켜 연산량을 줄이고, MLA는 메모리 사용량을 획기적으로 감소시켰습니다.

• 딥시크 V3 모델은 훈련에 H800 GPU를 사용하여 2,788K의 GPU 시간과 557.6만 달러의 비용을 기록했는데, 이는 전체 비용의 3%에 불과하며, 최종 훈련 단계 비용만 계산되었다는 점을 고려해야 합니다.

• 알렉산드르 왕의 H100 5만 개 발언은 Dylan Patel의 분석에서 비롯된 것으로 추정되며, 딥시크가 H800의 통신 제한을 극복하기 위해 PTX 저수준 GPU 명령어까지 활용한 최적화를 통해 성과를 달성했다는 점이 중요합니다.

• 딥시크는 4o, Sonnet-3.5와 비슷한 수준의 성능을 보이며 라마보다 우수하지만, 4o와 소넷을 디스틸레이션(distillation)하여 훈련 데이터를 생성했을 가능성이 높습니다. 디스틸레이션은 다른 모델의 지식을 추출하는 방법으로, 흔히 사용되지만 선도적인 연구소들에게는 불리한 측면이 있습니다.

• 디스틸레이션으로 인해 선도적인 연구소들의 투자가 감가상각될 위험이 커지고, 빅테크 기업들의 주가 하락에도 영향을 미칠 수 있습니다. 반면, 추론 비용 감소는 마이크로소프트, 아마존, 애플, 메타와 같은 기업들에게는 장기적으로 유리하게 작용할 전망입니다.

• 딥시크가 공개한 R1 및 R1-zero 모델은 OpenAI의 o1 신화를 무너뜨렸습니다. R1은 추론 모델의 오픈소스화 가능성을 보여주고, R1-zero는 인간의 피드백 없이 순수 강화학습으로 학습된 모델로, 'The bitter Lesson'을 다시 한번 증명하는 사례입니다.

모두의공원

deepseek 관련하여 읽어볼만한 글입니다. 7