기억하고 성장하는 AI 시대, 메모리 반도체의 다음 과제 : 클리앙

[Tech Note 1편] 기억하고 성장하는 AI 시대, 메모리 반도체의 다음 과제

우리가 사용하는 AI, ‘기억 상실증 걸린 천재’

엄청난 지능을 보유한 엘리트 비서가 있다고 가정해 보자. 하지만 이 비서가 매일 아침 출근마다 어제 나눈 대화를 모조리 잊어버린다면 어떨까? 이름이 무엇인지, 무슨 일을 하는 회사인지, 어제 지시한 프로젝트는 어디까지 진행됐는지 매일 처음부터 다시 설명해야 한다면, 굉장히 답답할 것이다. 이 비서는 천재적인 두뇌를 가지고 요구하는 업무를 완벽하게 수행해 내지만, 퇴근하는 순간 그 모든 기억은 전부 사라진다.

카이스트(KAIST)에서 반도체소자를 연구하는 김주찬 연구원은 이 비서의 모습이 현재 우리가 열광하고 있는 AI의 민낯이라 지적한다. 챗GPT, 제미나이, 클로드 등 우리가 ‘지능’이라 일컫는 거대언어모델(LMM)은 심각한 선행성 기억상실증(Anterograde Amnesia)에 걸린 환자라는 것이다.

LLM은 빅테크 기업들이 천문학적인 비용을 들여 학습시킨 ‘과거의 지식’은 완벽하게 기억하지만 학습이 끝난 시점 이후 겪는 새로운 경험과 정보들을 자신의 장기 기억으로 통합하지는 못한다. 이러한 문제를 보완하기 위해 빅테크 기업들은 엄청난 양의 GPU와 HBM을 활용해 매번 질문할 때마다 지난 대화 기록 전체를 다시 읽게 만드는 비효율의 극치를 반복하고 있다. 이것은 마치 도서관에서 책을 한 권 빌리기 위해 도서관 전체를 매번 복사하는 것과 유사하다.

▲ 새로운 정보와 지식을 실시간으로 학습하기 어려운 LLM 구조

중첩 학습과 타이탄 아키텍처의 등장으로 변화하는 AI

하지만, 2026년을 기점으로 앞으로 AI 경쟁은 그 양상이 달라질 것으로 전망된다. 김 연구원은 2026년부터 상용화될 구글의 중첩 학습*과 타이탄 아키텍처*의 도입으로 정적 추론*이 붕괴될 것이라 전망했다. 지금까지의 AI가 한 번 크게 학습하고 난 후 고정된 가중치로 추론만 수행했다면, 이제는 학습과 추론의 경계가 흐려지고 추론이 곧 미세 학습이 되며, 모델 배포 이후에도 지속적인 학습이 가능해지는 시대가 온다는 설명이다.

* 중첩 학습(Continual Learning): 모델이 새로운 데이터를 새롭게 학습하는 과정을 다층 · 다속도 업데이트로 정의
* 타이탄(Titans) 아키텍처: 대규모 AI 모델의 성능을 높이기 위해 단기 문맥을 처리하는 어텐션(Attention)과 장기 정보를 저장하는 신경 메모리(Neural Memory)를 결합해 긴 문맥을 효율적으로 처리하도록 설계된 차세대 AI 모델 아키텍처
* 정적 추론(Static Inference): 사전에 학습된 인공지능 모델의 가중치가 고정된 상태에서 입력 데이터에 대해 결과만 계산하는 방식의 추론을 의미하며, 추론 과정에서 모델 파라미터는 변경되지 않는다.

여기서 말하는 ‘정적 추론’이란 지금까지 우리가 사용한 AI의 학습 및 추론 방식을 의미한다. 거대한 데이터를 통해 학습을 마친 기존 AI 모델에게 추가 정보를 학습시키려면 일정 수준 이상의 기간과 비용이 소모되는 파인튜닝*이 필요했다. 하지만 실제 인간의 뇌는 이렇게 작동하지 않는다. 뜨거운 주전자에 손을 대는 순간 인간은 0.1초 만에 위험을 감지하고 해당 정보를 장기기억에 영구적으로 저장하고 시냅스의 연결 강도도 즉각적으로 수정한다. 이 과정에서 뇌 구조의 재설계와 같은 기전은 필요하지 않다.

* 파인튜닝(Fine-tuning): 이미 대규모 데이터로 사전 학습된 인공지능 모델을 특정 목적이나 분야에 맞도록 추가 데이터로 다시 학습시켜 성능을 최적화하는 과정

타이탄 아키텍처는 단순히 데이터를 저장하는 것이 아니라 인간의 뇌처럼 기억(데이터)을 관리한다. 예측하지 못한 ‘새로운 정보(Surprise)’가 입력될 때만 선별적으로 기억을 업데이트하는 것이다. 이는 모델이 추론하는 과정 자체가 곧 학습이 되는 테스트-타임 트레이닝을 가능케 하며, 멈추지 않고 성장하는 AI 구현을 돕는다.

▲ 구글의 Titans 논문에서 소개된 AI 메모리 아키텍처

이러한 변화들로 인해 AI는 ‘기억하지 못하고 정체된 지능’에서 ‘기억하고 스스로 성장하는 지능’으로 전환될 것이다. 이는 소프트웨어 엔지니어에게는 새로운 가능성을 열어주지만, 하드웨어 설계 측면에서는 상당한 기술적 도전을 제기한다. 기존의 메모리 반도체(D램, HBM)는 기본적으로 읽기 중심(Read-Heavy)의 데이터 접근 패턴을 전제로 설계되어 왔다. GPU가 연산을 수행하는 동안 HBM은 필요한 데이터를 읽어 제공하고, 연산이 끝난 후 다시 저장하는 구조가 일반적이었다.

그러나 중첩 학습이 도입되면 메모리의 동작 방식이 크게 달라진다. AI 모델이 추론 과정에서도 지속적으로 가중치를 조정하면서 읽기-수정-쓰기(Read-Modify-Write) 작업이 빈번하게 발생하기 때문이다. 이러한 환경에서는 단순한 메모리 대역폭 확대만으로는 가중치 업데이트 트래픽을 처리하기 어렵다.

특히 타이탄 아키텍처의 단기 기억(Core)은 인간의 작업 기억과 유사하게 빠르게 변화하는 특성이 있다. 이를 효과적으로 처리하기 위해서는 단순히 대역폭이 높은 HBM을 넘어, 메모리 내부에서 간단한 연산을 수행할 수 있는 구조, 즉 베이스 다이(Base Die)에 연산 로직을 포함한 차세대 HBM(HBM4 이후)이나 PIM* 기술이 중요해질 가능성이 크다. 데이터가 GPU와 메모리 사이를 반복적으로 이동하지 않고 메모리 내부에서 처리될 때 실시간 학습 효율을 높일 수 있기 때문이다.

* PIM(Processing-In-Memory): 메모리에 프로세서의 연산 기능을 더해, 기존 메모리와 프로세서 사이 데이터 병목현상을 해소하고 속도 성능을 획기적으로 높여주는 차세대 메모리

한편, 이러한 구조는 필연적으로 데이터 규모의 증가를 수반한다. 그러나 HBM은 비용이 높은 메모리이기 때문에 모든 데이터를 저장하기에는 경제적 한계가 있다. 이에 따라 최근 반도체 업계에서는 CXL* 인터페이스를 활용해 HBM과 SSD 사이의 성능 격차를 보완하는 새로운 메모리 계층으로 HBF* 기술이 대안으로 주목받고 있다.

* CXL(Compute eXpress Link): 시스템상에 있는 메모리와 프로세서 등을 효율적으로 연결해, 대역폭과 용량의 한계를 확장해주는 인터페이스 기술
* HBF(High Bandwidth Flash): HBM과 SSD 사이에 위치하는 새로운 메모리 계층으로, HBM의 높은 대역폭과 낸드플래시 기반 스토리지의 대용량 특성을 결합해 AI 인프라의 확장성과 전력 효율을 높이기 위해 제안된 차세대 메모리 기술

▲ AI 시대를 혁신하는 새로운 설루션으로 HBF가 주목받고 있다.

구글과 같은 빅테크 기업들은 이미 다양한 알고리즘을 활용해 메모리 계층을 이원화하는 구조를 설계하고 있다. 현재 계산에 사용되는 데이터는 HBM에서 처리하고, 당장은 사용되지 않지만 가까운 시점에 다시 활용될 가능성이 높은 데이터는 HBF에 저장하는 방식이다. 이러한 구조는 메모리 자원의 활용 효율을 높이기 위한 전략적 설계라 할 수 있다.

HBM 분야에서 세계적인 경쟁력을 확보한 SK하이닉스 역시 단순히 HBM 생산 능력을 확대하는 것에 그치지 않고, HBF와 같은 차세대 고대역폭 스토리지 기술을 선제적으로 확보하기 위한 기술 개발에 돌입하기도 했다[관련기사]. 결국 알고리즘의 발전이 하드웨어 구조의 방향까지 다시 그리고 있는 셈이다.

AI 시대 메모리 구조의 변화, “’더 빠른 메모리’에서 ‘예측 가능한 메모리’로”

앞으로의 AI 시스템은 더 이상 ‘단 하나의 메모리’ 구조만을 요구하지 않을 가능성이 크다. 국내 주요 반도체 기업을 거쳐 현재 독일의 대표적인 전자기업인 지멘스(Siemens)에서 근무하고 있는 박태균 연구원은 지난 10년을 회고하며, 그동안의 메모리 기술 발전은 비교적 선형적인 성장의 흐름을 보여 왔다고 설명한다.

그동안 메모리 반도체 시장은 DDR3에서 DDR4로, HBM2에서 HBM3로 이어지는 과정에서 더 빠르고 더 큰 용량의 신제품이 등장하면 이전 세대 기술은 자연스럽게 시장에서 도태되는 방식이었다. 그러나 앞으로는 메모리 구조가 훨씬 더 세분화된 형태로 발전할 가능성이 높다는 분석이다.

실제로 최근 AI 모델 규모의 성장 속도는 점차 둔화하는 모습을 보이고 있다. 이는 기술적 한계라기보다는 비용, 전력 소비, 학습 시간 등 현실적인 제약이 누적된 결과에 가깝다. 대규모 언어 모델(LLM)을 학습하고 유지하는 데 필요한 자원이 이미 극소수 기업만이 감당할 수 있는 수준에 도달했고, 단순히 모델 규모를 확대하는 전략의 한계효용도 빠르게 낮아지고 있다.

반면, 동일한 모델이라도 운영 환경에 따라 성능과 효율이 크게 달라지는 국면이 도래하고 있다. 박 연구원은 실제 산업 현장에서 체감되는 경쟁력은 ‘모델이 얼마나 더 똑똑한가’보다는 ‘운영 환경에서 얼마나 안정적으로, 얼마나 빠르게, 그리고 얼마나 낮은 비용으로 구동될 수 있는가’에 달려 있다고 강조한다.

박태균 연구원은 “현장에서 AI 시스템을 설계하거나 운영하다 보면, 이론적으로는 충분한 메모리 성능을 갖추고 있음에도 실제 서비스 환경에서는 기대한 수준의 성능이 나타나지 않는 경우가 적지 않다”고 지적한다. 특히 HBM과 같은 고성능 메모리를 사용하고 있음에도 특정 워크로드에서 지연이나 불안정성이 반복적으로 발생하는 사례가 점차 늘어나고 있다는 것이다.

그러나 이러한 현상은 HBM 자체의 속도 부족보다는 평균적인 처리 속도와 실제 서비스 환경에서 요구되는 응답 특성 사이의 괴리에서 비롯되는 경우가 많다. 즉, 평균 성능은 충분히 빠르지만 특정 순간에 발생하는 지연이 전체 시스템 성능에 큰 영향을 미칠 수 있다는 점이 문제의 핵심이다.

이러한 맥락에서 최근 반도체 업계에서는 지연 시간 중심* 시장이 점차 중요해질 것이라는 전망이 제기된다. 평균적인 처리 속도보다 특정 순간의 지연, 즉 테일 지연*이 시스템 안정성을 좌우하는 사례가 늘어나고 있기 때문이다.

* 지연 시간 중심(Latency-centric): 평균 처리 속도나 대역폭보다 요청이 처리되는 데 걸리는 개별 응답 시간(지연 시간)을 핵심 성능 지표로 삼는 시스템 설계 또는 시장 흐름을 의미한다.
* 테일 지연(Tail Latency): 전체 요청 중 대부분보다 현저히 늦게 처리되는 일부 요청에서 발생하는 지연 시간을 뜻하며, 대규모 분산 시스템에서는 이러한 지연이 전체 서비스 안정성과 체감 성능을 좌우하는 요소로 작용한다.

▲ 자연스러운 움직임을 위해 수많은 연산이 필요한 휴머노이드 로봇의 경우, 아주 짧은 시간의 지연으로도 전체 시스템에 문제가 될 수 있다.

예를 들어, 휴머노이드 로봇이 균형을 유지하기 위해 초당 수십 차례의 판단을 수행한다고 가정해 보자. 대부분의 판단이 매우 짧은 시간 내에 처리되더라도 단 한 번의 판단에서 메모리 병목으로 인해 지연이 발생한다면, 로봇은 균형을 잃고 넘어질 수 있다. 평균 성능이 충분히 높더라도 단 한 번의 지연이 전체 시스템의 안정성을 위협할 수 있는 것이다.

엔비디아의 젠슨 황 CEO가 CES 2025와 CES 2026에서 연이어 강조했듯이, 향후 AI 산업은 피지컬 AI* 시대에 진입할 가능성이 높다. 이러한 환경에서는 단순히 빠른 메모리보다 얼마나 예측 가능한 응답 특성을 제공하는 메모리인가가 더욱 중요한 경쟁 요소가 될 수 있다. 실제로 AI의 활용 방식이 다양해지면서 요구되는 하드웨어 특성 역시 크게 달라지고 있다. 초대형 모델을 학습시키는 AI, 24시간 공장을 감시하는 로봇 AI, 수천만 명의 사용자와 상호작용하는 에이전트 AI는 각각 서로 다른 물리적 특성을 요구한다.

* 피지컬 AI(Physical AI): 로봇, 자율주행, 제조 설비 등 물리적 시스템에 적용되는 AI

이는 메모리 설계 방식에도 새로운 고민을 제기한다. 만약 고객마다 요구되는 특성이 모두 다르다면, SK하이닉스와 같은 메모리 기업은 수십 가지의 서로 다른 HBM을 각각 설계해야 할 수도 있다. 그러나 이러한 방식은 제조 효율 측면에서 현실적인 한계가 있다.

이에 대해 박 연구원은 향후 HBM이 모듈화된 구조로 발전할 가능성을 제시한다. 예를 들어, 학습용 시스템처럼 대역폭이 중요한 경우에는 대역폭 특화 베이스 다이를 적용하고, 로봇이나 실시간 제어 시스템처럼 반응 속도가 중요한 경우에는 지연 시간 최적화 베이스 다이를 사용하는 방식이다. 이와 같이 표준화된 구성 요소를 조합하는 방식은 마치 레고 블록처럼 다양한 요구 조건에 대응할 수 있는 유연한 구조를 가능하게 할 수 있다.

▲ 추후 HBM은 다양한 요구 조건에 대응할 수 있는 ‘모듈화’ 구조로 발전할 수 있다.

AI 시대의 숨은 전장, 통신 인프라

지금까지 언급했던 변화의 흐름은 메모리 기술 영역에만 머무르지 않는다. 자율주행, 피지컬 AI, 도심항공교통(UAM) 등 앞으로 등장할 다양한 기술들은 고성능 GPU와 메모리뿐 아니라 이를 안정적으로 연결하는 통신 인프라 역시 중요한 기반이 된다. 아무리 뛰어난 연산 능력을 갖춘 시스템이라 하더라도 데이터를 전달하는 네트워크가 이를 뒷받침하지 못한다면 전체 성능은 제한될 수밖에 없다.

포스텍에서 AI 통신 기술을 연구하고 있는 김민우 연구원은 차세대 6G 통신의 핵심이 단순한 속도 향상이 아니라 통신 제어권의 AI 이양에 있다고 설명한다. 기존 통신망이 인간이 설계한 프로토콜에 따라 작동했다면, 6G에서는 AI-RAN* 개념을 통해 기지국이 통신 환경을 실시간으로 판단하고 최적화하는 구조가 도입될 가능성이 크다.

* AI-RAN(AI Radio Access Network): AI를 기지국 무선 접속망(RAN)에 적용해 주파수 자원 배분, 데이터 경로, 네트워크 상태 등을 실시간으로 분석·제어하여 통신 성능을 자동으로 최적화하는 차세대 통신 인프라 구조를 의미한다.

▲ AI의 발전으로 인해 통신 인프라의 중요성 역시 더욱 높아지고 있다.

이러한 변화는 통신 인프라의 성격 자체도 바꾸고 있다. 최근 엔비디아가 ‘AI-RAN 얼라이언스’에 참여하며 통신 분야로 영역을 확장하는 것도 같은 맥락이다. 전 세계 약 1,200만 개 기지국에 AI 가속기가 도입될 경우, 이는 새로운 AI 인프라 시장으로 이어질 수 있기 때문이다.

그러나 현실적인 문제도 존재한다. 통신사들은 기지국에 설치된 고가의 AI 가속기를 단순한 통신 처리에만 사용하는 대신, 트래픽이 적은 시간에는 엣지 컴퓨팅(MEC)이나 생성형 AI 서비스에 활용하고자 한다. 문제는 이러한 작업이 동시에 이루어질 경우, 자율주행 차량과 같은 실시간 시스템의 통신 처리에 지연이 발생할 수 있다는 점이다.

▲ 기지국 AI 가속기를 활용할 경우, 여러 AI 서비스 간의 자원 경합 문제가 발생할 수 있다.

따라서 6G 환경에서는 하나의 시스템 안에서 통신용 자원과 서비스용 자원을 명확하게 분리하는 메모리 격리와 가상화 기술이 중요해질 것으로 전망된다. 김민우 연구원은 이러한 요구가 기존 범용 메모리 구조로는 대응하기 어려운, 6G 시대의 새로운 기술 과제가 될 수 있다고 지적하며 2026년이 관련 표준 방향성이 결정되는 중요한 시점이 될 것으로 전망했다.

AI 시대를 이끌어가는 ‘메모리 반도체’

결국, AI 시대에 앞서 모든 문제를 관통하는 하나의 공통된 핵심 과제는 바로 데이터의 이동(Data Movement)이다. 현재의 컴퓨팅 구조에서는 데이터를 메모리에서 꺼내 연산 장치로 전달하고 다시 저장하는 과정에서 상당한 에너지가 소모되고, 동시에 처리 지연도 발생한다.

필자는 2022년 SK하이닉스 사내 방송을 통해 실제 PIM 기술의 실물을 확인한 바 있으며, 2025년 CES의 SK 부스에서 AiM* 기술을 직접 접하면서 이러한 구조적 비효율을 해결할 가능성을 확인할 수 있었다. 데이터를 연산 장치로 이동시키는 대신 메모리 내부에서 직접 연산이 이루어진다면, 성능과 에너지 효율은 동시에 크게 개선될 수 있기 때문이다. 이는 단순한 성능 향상의 문제가 아니라, 앞서 김주찬 연구원이 강조했던 ‘중첩 학습’을 가능하게 하는 물리적 조건과도 밀접하게 연결된다.

* AiM(Accelerator-in-Memory): 메모리에 프로세서의 연산 기능을 탑재한 차세대 설루션

▲ CES 2025에서 공개된 SK하이닉스의 AiMX 제품 모습

중첩 학습 환경에서는 빈번한 연산과 데이터 업데이트가 발생하는데, 이러한 트래픽을 GDDR6-AiM과 같은 PIM 기반 메모리 구조가 메모리 내부에서 처리할 수 있다면 GPU와 메모리 사이에서 발생하는 병목 현상은 크게 완화될 수 있다. 메모리가 자체적으로 가중치를 업데이트할 수 있는 구조가 갖춰질 때, 데이터가 GPU까지 왕복하는 시간을 줄여 실시간 학습 환경을 구현할 수 있기 때문이다. 결국 AI 시대의 본격적인 도래를 위해서는 기존의 메모리 구조를 넘어서는 새로운 기술적 진화가 필요하다.

(생략)

※ 본 콘텐츠는 AI/반도체 산업에 관한 인사이트를 제공하는 외부 전문가 칼럼 콘텐츠로, SK하이닉스의 공식 입장과는 다를 수 있습니다.

모두의공원