[퍼옴] GPU가 저물고 메모리가 ai능력의 상한이 된 이유 : 클리앙

메모리 수요 증가에 대한 설명이 괜찮은 것 같아서 퍼왔습니다.

출처 : 웹진 인벤 : GPU가 저물고 메모리가 ai능력의 상한이 된 이유 - 오픈이슈갤러리

AI는 더 똑똑해진 게 아니라 더 잘 기억하게 됐다

― ‘GPU 시대’가 저물고 메모리가 AI 능력의 상한이 된 이유
ChatGPT가 처음 등장했을 때 우리는 “이 친구는 한 번에 책 한 권 분량의 글도 읽을 수 있을까?” 같은 질문을 던졌다. 3년이 지난 지금, AI는 책 수십 권 분량을 한 번에 읽고 그 사이의 모순을 찾아낸다. 무엇이 달라진 걸까? 흔히 ‘GPU가 더 빨라졌기 때문’이라고들 답한다. 절반만 맞는 말이다. 더 정확히 말하면, AI 산업의 진짜 병목은 더 이상 연산이 아니라 메모리다. 그리고 이 사실이 최근 1~2년 사이 산업 전체를 뒤흔든 거의 모든 현상 ― 토큰맥싱 열풍, 한국 SK하이닉스의 부상, 빅테크의 천문학적 인프라 투자 ― 을 한 줄로 꿰뚫는다.

텐서코어는 놀고, HBM은 헐떡인다
AI가 한 단어를 생성하는 과정을 생각해 보자. 모델은 매번 자신이 가진 수천억 개의 파라미터(가중치)와, 지금까지 나눈 대화 전체를 한 번씩 들춰 봐야 다음 단어를 정할 수 있다. 그런데 이 ‘들춰 보는’ 작업이 문제다. GPU 내부의 텐서코어는 어마어마한 속도로 계산을 할 수 있지만, 정작 계산할 데이터가 메모리에서 도착하기를 기다리느라 대부분의 시간을 놀고 있다.

비유하자면 이렇다. 8차로 고속도로(텐서코어)가 뚫려 있어도, 거기로 들어가는 진입로(메모리 대역폭)가 좁으면 차들은 진입로에서 꼼짝없이 정체한다. GPU 안에서 벌어지는 일이 정확히 이렇다. 한 연구는 AI가 답변을 생성하는 단계에서 GPU의 연산 강도가 평소의 12분의 1로 떨어진다고 측정했다. 텐서코어 입장에서 보면 91%의 시간은 그냥 노는 셈이다.

엔비디아가 2024년 내놓은 H200 칩이 이를 가장 노골적으로 증명한다. H200은 직전 세대 H100과 완전히 동일한 반도체 다이를 쓴다. 연산 회로는 한 글자도 바뀌지 않았다. 바뀐 건 딱 하나, 메모리(HBM)를 80GB에서 141GB로 키우고 대역폭을 1.4배 늘렸다. 그게 전부다. 그런데 이 ‘메모리만 늘린’ 칩이 추론 속도를 45% 끌어올렸다. 자동차 엔진은 그대로 두고 연료 호스만 두 배 굵게 만들었더니 차가 훨씬 빨라진 격이다. 이쯤 되면 ‘GPU의 가치 대부분이 사실 HBM에 있었다’는 업계의 농담은 농담이 아니다.

의도를 이해한다는 것 = 더 많이 기억한다는 것
여기서 한 단계 더 들어가야 한다. AI가 “이 일 좀 해 줘”라는 한마디를 제대로 처리하려면 단어 몇 개를 분석하는 걸로는 부족하다. 사용자가 누구인지, 지난주에 어떤 작업을 했는지, 회사 코드베이스는 어떤 구조인지, 방금 호출한 외부 도구는 무엇을 돌려줬는지 ― 이 모든 정보가 모델 앞에 동시에 놓여 있어야 한다. 그래야 의도를 추론할 수 있다.

그런데 이 모든 정보는 결국 토큰이라는 단위로 모델의 작업 책상 위에 올라가야 한다. AI 기업 Anthropic은 최근 발표한 엔지니어링 글에서 이를 “유한한 어텐션 예산(attention budget)“이라고 표현했다. 모델이 한 번에 집중할 수 있는 토큰의 양에는 물리적 한계가 있고, 그 한정된 책상 위에 가장 신호가 강한 정보를 큐레이션해 올려놓는 것이 좋은 AI 시스템의 핵심이라는 것이다. 이걸 업계에서는 ‘컨텍스트 엔지니어링’이라 부르는데, 한마디로 기억 관리 기술이다.

즉, “AI가 내 의도를 잘 이해해야 일을 잘한다”는 명제는 기술적으로 풀어 쓰면 “AI가 나에 관한 더 많은 토큰을 효율적으로 들고 다닐 수 있어야 한다”가 된다. 그리고 토큰은 메모리에 쌓인다. 의도 이해는 결국 메모리 문제로 환원된다.

토큰을 더 쓰는 AI가 더 잘하는 AI다
이 단순한 사실이 ‘GPT-4의 8천 토큰’에서 ‘Gemini 3의 2백만 토큰’까지, 3년 만에 컨텍스트 창을 500배 확장시킨 군비 경쟁의 동력이다. 같은 기간 GPU의 연산 성능은 10배 정도 늘었을 뿐이다. 무엇이 진짜 폭발적으로 자라났는지가 분명하다.

2024년 9월 OpenAI의 o1 모델이 등장하면서 한 발 더 나갔다. 이 모델은 답을 내놓기 전에 스스로 생각하는 토큰을 먼저 생성한다. 그리고 이상한 일이 벌어졌다 ― 생각을 길게 할수록 답이 더 정확해졌다. 같은 모델이라도 토큰을 5배, 20배 더 쓰면 수학 올림피아드 정답률이 껑충 뛴다. 이제 AI는 ‘얼마나 똑똑하게 태어났느냐’보다 ‘답하기 전에 얼마나 오래 생각할 수 있느냐’로 평가된다. 생각의 단위는 토큰이고, 토큰은 메모리에 쌓인다.
여기에 ‘AI 에이전트’까지 가세하면 토큰 소비는 폭주한다. 코드를 검토하는 AI 에이전트 하나가 한 번 일하는 데 보통 10만~50만 개의 토큰을 쓴다. 여러 에이전트가 팀으로 협업하면 한 사람 분량의 7배를 쓴다는 보고도 있다. 이게 바로 ‘토큰맥싱(token-maxing)’ ― 더 긴 컨텍스트, 더 많은 사고 토큰, 더 많은 도구 호출로 토큰 소비를 최대화하면 AI가 더 똑똑해진다는 ― 추세가 멈추지 않는 이유다.

누가 청구서를 받는가
여기서 마지막 퍼즐 조각이 맞춰진다. 토큰이 많이 쓰일수록 어딘가의 메모리가 더 많이, 더 빠르게 읽혀야 한다. 그 메모리는 데이터센터에 있다. 데이터센터는 AWS·구글·마이크로소프트가 갖고 있다. 그리고 그 데이터센터에 들어가는 HBM의 약 80%는 한국이 만든다.
빅테크 5개 사가 2026년 한 해 동안 AI 인프라에 쓸 돈은 약 7,500억 달러로 추정된다. 우리 돈 1,000조 원이 넘는다. 작년보다 67% 증가한 액수다. 이 자금의 큰 갈래는 결국 HBM을 사는 데 흘러간다. SK하이닉스는 글로벌 HBM 시장의 62%를 차지하며 메모리 시장에서 사상 처음 삼성전자를 앞질러 1위에 올랐다. 삼성도 차세대 HBM4에서 반격을 준비 중이다. NVIDIA의 최신 시스템 GB200 NVL72는 마케팅을 들여다보면 결국 72개 GPU의 메모리를 하나로 묶어주는 장치다. 본질은 연산이 아니라 메모리 풀링이다. AWS, 구글, 마이크로소프트가 자체 개발한 AI 칩(Trainium, TPU, Maia)도 발표 자료의 첫머리는 모두 메모리 사양으로 시작한다.

GPU가 ‘AI 골드러시 시대의 곡괭이’라면, HBM은 그 곡괭이의 강철 날이다. 그리고 한국은 사실상 강철의 독점 공급자다. 사용자가 ChatGPT에 질문 하나를 던질 때마다, 어딘가의 HBM이 한 번 더 읽힌다. 그 HBM 4장 중 3장은 십중팔구 SK하이닉스나 삼성전자가 만든 것이다.

그래서 무엇이 바뀌었나
물론 ‘GPU가 무의미해졌다’고 말하는 건 과장이다. GPU는 여전히 중요하다. 다만 같은 GPU 안에서도 가치가 HBM 쪽으로 응축되고 있다는 것이 정확한 표현이다. 컨텍스트 창이 무한정 늘어난다고 모델이 비례해서 똑똑해지지도 않는다. 100만 토큰을 줘도 AI는 중간에 묻힌 정보를 자주 놓친다(‘lost in the middle’ 현상). 알고리즘 효율화로 메모리 부담이 어느 정도 줄어들 가능성도 있다.

그러나 큰 그림은 분명하다. AI의 능력은 이제 ‘얼마나 큰 모델을 훈련했느냐’가 아니라 ‘얼마나 많은 토큰을 한 번에 다루느냐’로 결정된다. 그리고 토큰을 다루는 일은 메모리를 다루는 일이다. AI 경제의 다음 10년을 결정하는 질문은 누가 가장 큰 모델을 만드느냐가 아니라, 누가 가장 많은 메모리 대역폭을 지배하느냐다.
이 질문 앞에서 한국 반도체 산업은, 적어도 지금 이 순간에는, 가장 좋은 자리에 앉아 있다.

참고 자료
Anthropic Engineering, “Effective context engineering for AI agents” (2025. 9. 29), https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
“AI의 능력은 모델의 유한한 어텐션 예산 안에서 가장 신호 강한 토큰을 큐레이션하는 능력에 좌우된다”

모두의공원

[퍼옴] GPU가 저물고 메모리가 ai능력의 상한이 된 이유 8