CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·주식한당 ·아이포니앙 ·MaClien ·방탄소년당 ·일본산당 ·자전거당 ·개발한당 ·이륜차당 ·소시당 ·나스당 ·안드로메당 ·AI당 ·걸그룹당 ·영화본당 ·골프당 ·클다방 ·사과시계당 ·디아블로당 ·패스오브엑자일당 ·가상화폐당 ·노키앙 ·IoT당 ·축구당 ·젬워한당 ·노젓는당 ·창업한당 ·윈폰이당 ·리눅서당 ·육아당 ·소셜게임한당 ·여행을떠난당 ·바다건너당 ·물고기당 ·라즈베리파이당 ·캠핑간당 ·3D메이킹 ·X세대당 ·ADHD당 ·AI그림당 ·날아간당 ·배드민턴당 ·야구당 ·농구당 ·블랙베리당 ·곰돌이당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·냐옹이당 ·문명하셨당 ·클래시앙 ·콘솔한당 ·요리한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·개판이당 ·동숲한당 ·날아올랑 ·전기자전거당 ·e북본당 ·갖고다닌당 ·이브한당 ·패셔니앙 ·도시어부당 ·FM한당 ·맛있겠당 ·포뮬러당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·KARA당 ·키보드당 ·꼬들한당 ·덕질한당 ·어학당 ·가죽당 ·레고당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·오른당 ·MTG한당 ·소리당 ·적는당 ·방송한당 ·PC튜닝한당 ·찰칵찍당 ·그림그린당 ·소풍간당 ·심는당 ·품앱이당 ·리듬탄당 ·달린당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·나혼자산당 ·스타한당 ·스팀한당 ·파도탄당 ·퐁당퐁당 ·테니스친당 ·테스트당 ·빨콩이당 ·공대시계당 ·터치패드당 ·트윗당 ·VR당 ·시계찬당 ·WebOs당 ·위스키당 ·와인마신당 ·WOW당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

모두의공원

[퍼옴] GPU가 저물고 메모리가 ai능력의 상한이 된 이유 8

3
2026-05-17 15:35:41 수정일 : 2026-05-17 15:38:14 125.♡.129.239
이제고만

메모리 수요 증가에 대한 설명이 괜찮은 것 같아서 퍼왔습니다.


출처 : 웹진 인벤 : GPU가 저물고 메모리가 ai능력의 상한이 된 이유 - 오픈이슈갤러리 




AI는 더 똑똑해진 게 아니라 더 잘 기억하게 됐다

― ‘GPU 시대’가 저물고 메모리가 AI 능력의 상한이 된 이유
ChatGPT가 처음 등장했을 때 우리는 “이 친구는 한 번에 책 한 권 분량의 글도 읽을 수 있을까?” 같은 질문을 던졌다. 3년이 지난 지금, AI는 책 수십 권 분량을 한 번에 읽고 그 사이의 모순을 찾아낸다. 무엇이 달라진 걸까? 흔히 ‘GPU가 더 빨라졌기 때문’이라고들 답한다. 절반만 맞는 말이다. 더 정확히 말하면, AI 산업의 진짜 병목은 더 이상 연산이 아니라 메모리다. 그리고 이 사실이 최근 1~2년 사이 산업 전체를 뒤흔든 거의 모든 현상 ― 토큰맥싱 열풍, 한국 SK하이닉스의 부상, 빅테크의 천문학적 인프라 투자 ― 을 한 줄로 꿰뚫는다.

텐서코어는 놀고, HBM은 헐떡인다
AI가 한 단어를 생성하는 과정을 생각해 보자. 모델은 매번 자신이 가진 수천억 개의 파라미터(가중치)와, 지금까지 나눈 대화 전체를 한 번씩 들춰 봐야 다음 단어를 정할 수 있다. 그런데 이 ‘들춰 보는’ 작업이 문제다. GPU 내부의 텐서코어는 어마어마한 속도로 계산을 할 수 있지만, 정작 계산할 데이터가 메모리에서 도착하기를 기다리느라 대부분의 시간을 놀고 있다.

비유하자면 이렇다. 8차로 고속도로(텐서코어)가 뚫려 있어도, 거기로 들어가는 진입로(메모리 대역폭)가 좁으면 차들은 진입로에서 꼼짝없이 정체한다. GPU 안에서 벌어지는 일이 정확히 이렇다. 한 연구는 AI가 답변을 생성하는 단계에서 GPU의 연산 강도가 평소의 12분의 1로 떨어진다고 측정했다. 텐서코어 입장에서 보면 91%의 시간은 그냥 노는 셈이다.

엔비디아가 2024년 내놓은 H200 칩이 이를 가장 노골적으로 증명한다. H200은 직전 세대 H100과 완전히 동일한 반도체 다이를 쓴다. 연산 회로는 한 글자도 바뀌지 않았다. 바뀐 건 딱 하나, 메모리(HBM)를 80GB에서 141GB로 키우고 대역폭을 1.4배 늘렸다. 그게 전부다. 그런데 이 ‘메모리만 늘린’ 칩이 추론 속도를 45% 끌어올렸다. 자동차 엔진은 그대로 두고 연료 호스만 두 배 굵게 만들었더니 차가 훨씬 빨라진 격이다. 이쯤 되면 ‘GPU의 가치 대부분이 사실 HBM에 있었다’는 업계의 농담은 농담이 아니다.

의도를 이해한다는 것 = 더 많이 기억한다는 것
여기서 한 단계 더 들어가야 한다. AI가 “이 일 좀 해 줘”라는 한마디를 제대로 처리하려면 단어 몇 개를 분석하는 걸로는 부족하다. 사용자가 누구인지, 지난주에 어떤 작업을 했는지, 회사 코드베이스는 어떤 구조인지, 방금 호출한 외부 도구는 무엇을 돌려줬는지 ― 이 모든 정보가 모델 앞에 동시에 놓여 있어야 한다. 그래야 의도를 추론할 수 있다.

그런데 이 모든 정보는 결국 토큰이라는 단위로 모델의 작업 책상 위에 올라가야 한다. AI 기업 Anthropic은 최근 발표한 엔지니어링 글에서 이를 “유한한 어텐션 예산(attention budget)“이라고 표현했다. 모델이 한 번에 집중할 수 있는 토큰의 양에는 물리적 한계가 있고, 그 한정된 책상 위에 가장 신호가 강한 정보를 큐레이션해 올려놓는 것이 좋은 AI 시스템의 핵심이라는 것이다. 이걸 업계에서는 ‘컨텍스트 엔지니어링’이라 부르는데, 한마디로 기억 관리 기술이다.

즉, “AI가 내 의도를 잘 이해해야 일을 잘한다”는 명제는 기술적으로 풀어 쓰면 “AI가 나에 관한 더 많은 토큰을 효율적으로 들고 다닐 수 있어야 한다”가 된다. 그리고 토큰은 메모리에 쌓인다. 의도 이해는 결국 메모리 문제로 환원된다.

토큰을 더 쓰는 AI가 더 잘하는 AI다
이 단순한 사실이 ‘GPT-4의 8천 토큰’에서 ‘Gemini 3의 2백만 토큰’까지, 3년 만에 컨텍스트 창을 500배 확장시킨 군비 경쟁의 동력이다. 같은 기간 GPU의 연산 성능은 10배 정도 늘었을 뿐이다. 무엇이 진짜 폭발적으로 자라났는지가 분명하다.

2024년 9월 OpenAI의 o1 모델이 등장하면서 한 발 더 나갔다. 이 모델은 답을 내놓기 전에 스스로 생각하는 토큰을 먼저 생성한다. 그리고 이상한 일이 벌어졌다 ― 생각을 길게 할수록 답이 더 정확해졌다. 같은 모델이라도 토큰을 5배, 20배 더 쓰면 수학 올림피아드 정답률이 껑충 뛴다. 이제 AI는 ‘얼마나 똑똑하게 태어났느냐’보다 ‘답하기 전에 얼마나 오래 생각할 수 있느냐’로 평가된다. 생각의 단위는 토큰이고, 토큰은 메모리에 쌓인다.
여기에 ‘AI 에이전트’까지 가세하면 토큰 소비는 폭주한다. 코드를 검토하는 AI 에이전트 하나가 한 번 일하는 데 보통 10만~50만 개의 토큰을 쓴다. 여러 에이전트가 팀으로 협업하면 한 사람 분량의 7배를 쓴다는 보고도 있다. 이게 바로 ‘토큰맥싱(token-maxing)’ ― 더 긴 컨텍스트, 더 많은 사고 토큰, 더 많은 도구 호출로 토큰 소비를 최대화하면 AI가 더 똑똑해진다는 ― 추세가 멈추지 않는 이유다.

누가 청구서를 받는가
여기서 마지막 퍼즐 조각이 맞춰진다. 토큰이 많이 쓰일수록 어딘가의 메모리가 더 많이, 더 빠르게 읽혀야 한다. 그 메모리는 데이터센터에 있다. 데이터센터는 AWS·구글·마이크로소프트가 갖고 있다. 그리고 그 데이터센터에 들어가는 HBM의 약 80%는 한국이 만든다.
빅테크 5개 사가 2026년 한 해 동안 AI 인프라에 쓸 돈은 약 7,500억 달러로 추정된다. 우리 돈 1,000조 원이 넘는다. 작년보다 67% 증가한 액수다. 이 자금의 큰 갈래는 결국 HBM을 사는 데 흘러간다. SK하이닉스는 글로벌 HBM 시장의 62%를 차지하며 메모리 시장에서 사상 처음 삼성전자를 앞질러 1위에 올랐다. 삼성도 차세대 HBM4에서 반격을 준비 중이다. NVIDIA의 최신 시스템 GB200 NVL72는 마케팅을 들여다보면 결국 72개 GPU의 메모리를 하나로 묶어주는 장치다. 본질은 연산이 아니라 메모리 풀링이다. AWS, 구글, 마이크로소프트가 자체 개발한 AI 칩(Trainium, TPU, Maia)도 발표 자료의 첫머리는 모두 메모리 사양으로 시작한다.

GPU가 ‘AI 골드러시 시대의 곡괭이’라면, HBM은 그 곡괭이의 강철 날이다. 그리고 한국은 사실상 강철의 독점 공급자다. 사용자가 ChatGPT에 질문 하나를 던질 때마다, 어딘가의 HBM이 한 번 더 읽힌다. 그 HBM 4장 중 3장은 십중팔구 SK하이닉스나 삼성전자가 만든 것이다.

그래서 무엇이 바뀌었나
물론 ‘GPU가 무의미해졌다’고 말하는 건 과장이다. GPU는 여전히 중요하다. 다만 같은 GPU 안에서도 가치가 HBM 쪽으로 응축되고 있다는 것이 정확한 표현이다. 컨텍스트 창이 무한정 늘어난다고 모델이 비례해서 똑똑해지지도 않는다. 100만 토큰을 줘도 AI는 중간에 묻힌 정보를 자주 놓친다(‘lost in the middle’ 현상). 알고리즘 효율화로 메모리 부담이 어느 정도 줄어들 가능성도 있다.

그러나 큰 그림은 분명하다. AI의 능력은 이제 ‘얼마나 큰 모델을 훈련했느냐’가 아니라 ‘얼마나 많은 토큰을 한 번에 다루느냐’로 결정된다. 그리고 토큰을 다루는 일은 메모리를 다루는 일이다. AI 경제의 다음 10년을 결정하는 질문은 누가 가장 큰 모델을 만드느냐가 아니라, 누가 가장 많은 메모리 대역폭을 지배하느냐다.
이 질문 앞에서 한국 반도체 산업은, 적어도 지금 이 순간에는, 가장 좋은 자리에 앉아 있다.

참고 자료
Anthropic Engineering, “Effective context engineering for AI agents” (2025. 9. 29), https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents
“AI의 능력은 모델의 유한한 어텐션 예산 안에서 가장 신호 강한 토큰을 큐레이션하는 능력에 좌우된다”



이제고만 님의 게시글 댓글
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [8]
콩나무
IP 220.♡.21.146
15:43 2026-05-17 15:43:17
·
딥러닝이 결국 우리 뇌를 모방하는 것이니, 메모리도 중요한게 당연한거 같네요. 그러면 결국 낸드도 진짜 중요한게 아닐까하구요.
Disp1ay
IP 220.♡.189.21
15:43 2026-05-17 15:43:56
·
AI가 발전하고 고도화 될수록 메모리, 낸드는 진짜 기하급수적으로 필요한거 같습니다.
해요해요
IP 223.♡.227.88
15:48 2026-05-17 15:48:49
·
메모리 회사 관점에서 글이 쓰여진것같은데.... 지금 시장에서 엔비디아 수요가 줄면 메모리 쇼티지도 끝이라고 보고 있습니다....
메이킹
IP 106.♡.138.253
15:50 2026-05-17 15:50:55
·
내년이면 또 다른 이야기가 나오겠죠~
하늘땅별
IP 59.♡.35.149
15:52 2026-05-17 15:52:19
·
에이전트에서는 cpu가 중요하다고 하고... 그냥 다 돌려깎아먹으려고 하는 듯한 느낌도... 에이전트는 아직 활성화도 안됬는데
맥북에어
IP 117.♡.7.250
16:19 2026-05-17 16:19:38
·
@하늘땅별님 공감합니다 일부러 주식 올리려는 느낌이네요
SHERLOCK
IP 211.♡.200.43
17:06 2026-05-17 17:06:13
·
@하늘땅별님 오픈클로 써보면 건망증인지 치매인지 구분이 안 갈 정도에요.. 백날 md 파일로 다 기록해봤자 지가 어따 기억해놓은지를 까먹으니 에이전트도 유저의 의도를 파악하려면 결국 램빨이겠더군요.
Drone
IP 161.♡.21.86
18:33 2026-05-17 18:33:08
·
gpu 한계는 시간을 늘려서 해결가능하지만 파라미터 수의 스케일업은 메모리를 늘리는 방법밖에 없는것 아닐까요
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.