AI는 한계에 왔는가 — 하드웨어 관점에서 본 LLM의 미래 : 클리앙

요즘 AI 관련 글을 보면 두 가지 상반된 이야기가 동시에 나옵니다. 한쪽은 "AGI가 코앞이다"라고 하고, 다른 쪽은 "이미 한계에 부딪혔다"고 합니다. 어느 쪽이 맞는지 제 나름대로 정리해봤습니다.

1. LLM 스케일링은 이미 한계에 왔습니다

GPT-3에서 GPT-4로 갈 때의 그 충격적인 도약, 지금은 안 나오고 있습니다. 최신 프론티어 모델들끼리 벤치마크 점수 차이가 1~3%대입니다. 새 벤치마크를 만들어도 6개월~1년이면 다 포화됩니다.

업계는 MoE(Mixture of Experts), 추론 시간 계산(test-time compute) 같은 우회로를 찾고 있지만, 본질적 한계는 명확합니다.

데이터 한계: 인터넷의 양질 텍스트는 거의 다 학습에 썼습니다. 합성 데이터로 메우는 중인데 model collapse 위험이 있습니다.
자본 한계: 차세대 데이터센터가 10GW급(원자로 10기 출력)으로 설계되고 있습니다. 2026년 AI 인프라 투자가 700조 원에 육박합니다. 이런 식의 증설이 무한정 가능할 리 없습니다.
전력 한계: 데이터센터 한 곳이 도시 하나만큼 전기를 씁니다. 사회적 수용 한계가 옵니다.

Ilya Sutskever가 작년에 "우리가 아는 방식의 pretraining은 끝났다"고 공개적으로 말한 게 빈말이 아닙니다.

2. 사실 AI 발전은 알고리즘이 아니라 하드웨어가 만들었습니다

이 부분이 업계가 잘 인정하지 않는 진실입니다.

Attention 메커니즘은 2014년부터 있었습니다. 신경망은 1958년부터, Backpropagation은 1986년부터 있었습니다. 그런데 왜 2017년 트랜스포머가 나오고, 2022년 ChatGPT가 터졌을까요?

하드웨어가 따라잡았기 때문입니다.

2006년 CUDA 출시로 GPU 범용 계산이 가능해짐
V100(16GB) → A100(80GB) → H100으로 메모리 폭증
HBM(고대역폭 메모리)이 토큰당 latency를 가능하게 만듦
NVMe가 수 TB~PB 데이터를 GPU에 빠르게 공급
InfiniBand/NVLink가 수천 GPU를 한 클러스터로 묶음

Rich Sutton의 "Bitter Lesson"이 핵심을 짚었습니다. "AI 70년 역사의 가장 큰 교훈은, 일반적 방법 + 더 많은 계산이 영리한 알고리즘을 항상 이긴다는 것"이라고요.

즉, AI의 진짜 한계는 반도체 산업의 한계입니다. TSMC, ASML, SK하이닉스가 사실상 AI 회사인 셈입니다. 이 관점에서 보면 현재 AI 부스트의 진짜 원천은 OpenAI의 천재성이 아니라 HBM 공급망과 3nm 공정입니다.

그리고 실리콘 공정은 1nm 부근에서 양자 효과로 물리적 한계가 옵니다. 이게 중요한데, 모델 크기와 속도는 따로 떼어 볼 수 없습니다. 같은 공정에서 모델을 작게 만들면 빨라지고, 빠르게 만들려면 작아져야 합니다. 둘 다 같은 양자적 천장에 묶여 있습니다.

3. 차세대 AI = 지금의 프론티어급이 작아지고 빨라지는 것

여기서 다음 단계가 보입니다. 모델 능력은 사실상 충분해졌습니다. 일상 업무, 코딩, 글쓰기에 GPT-4급이면 차고 넘칩니다. 더 똑똑한 모델이 필요한 게 아니라, 현재 프론티어급을 더 작고 빠르게 만드는 게 다음 단계입니다.

왜냐하면 다음 패러다임(로봇, 에이전트, 멀티모달 통합)에서 LLM은 부품으로 들어갑니다. 부품이 크고 느리면 전체 시스템이 못 굴러갑니다.

로봇은 100ms 이내 반응 필요. 현재 LLM은 1~5초.
에이전트는 수백 번 LLM 호출. 호출당 2초면 작업 하나에 17분.
자기 학습 루프는 빠른 반복이 전제. 느린 LLM으론 self-improvement 불가.

업계가 보는 지표도 바뀌어야 합니다. MMLU 점수나 파라미터 수가 아니라 토큰당 latency, 같은 성능을 내는 최소 모델 크기, 엣지 디바이스 실행 가능성이 진짜 의미 있는 지표입니다.

4. 그런데 효율이 좋아진다고 전체 소비가 줄지는 않습니다

여기서 짚고 갈 게 하나 있습니다. 제번스의 역설(Jevons Paradox) 이라는 19세기 경제학 법칙인데요.

영국에서 증기기관 효율이 좋아지면 석탄 소비가 줄 줄 알았는데, 오히려 폭증했습니다. 효율이 좋아져서 가격이 내려가니까, 그동안 비싸서 못 쓰던 용도들이 새로 생겨났기 때문입니다. 결과적으로 총 석탄 소비는 늘었습니다.

AI에 그대로 적용됩니다. 모델이 10배 효율적이 되면 전력 소비도 1/10이 될까요? 아닙니다. 사용량이 100배 늘어서 총 전력은 오히려 증가합니다.

LLM 호출 비용이 1/10이 되면 → 에이전트가 한 작업에 호출 100번
폰에서 GPT-4 돌아가면 → 모두가 항상 켜놓고 씀
추론 비용이 싸지면 → reasoning을 더 오래 돌림

즉, AI의 환경 부담은 효율 개선으로 해결되지 않습니다. 오히려 효율이 좋아질수록 더 많이 쓰게 되고, 데이터센터는 계속 늘어날 겁니다. Sam Altman이 원전 투자 얘기 꺼내는 게 이런 맥락입니다.

5. 로봇 + LLM 통합은 5년쯤 걸릴 겁니다

이게 다음 진짜 변곡점인데, 빨라도 2030년 전후입니다.

로봇 하드웨어 측면: 현재 Figure, Tesla Optimus, Unitree 등은 데모 수준입니다. 양산가 $20k 이하로 가야 시장이 형성되는데 지금 $50k+입니다. 배터리, 모터, 관절 신뢰성이 진짜 병목입니다. 자동차 산업 학습곡선을 보면 5년이 합리적입니다.

로봇용 LLM 측면: 엣지에서 GPT-4급이 50ms 이내로 돌아가야 합니다. 그러려면 7B 모델로 현재 프론티어 수준이 나와야 하는데, 같은 성능 모델이 매년 약 3.5배 작아지는 추세대로면 2028~2030년 가능해 보입니다.

데이터 측면: 로봇 학습용 실제 상호작용 데이터가 절대 부족합니다. Tesla가 자율주행 데이터 모으는 데 10년 걸린 것과 비슷한 시간이 필요합니다.

정리

제 결론은 이렇습니다.

현재 LLM: 능력은 충분, 크기/속도가 병목 (둘은 같은 문제)
2026~2028년: 현재 프론티어급을 10배 작고 빠르게 압축
2028~2030년: 작고 빠른 LLM이 로봇/에이전트/엣지 디바이스에 침투
그 후: 새 하드웨어 패러다임(광컴퓨팅, 뉴로모픽) 없으면 평탄화

AGI는 모르겠습니다. 하지만 "스마트폰 모먼트"는 옵니다. GPT-4급이 폰에서 1초 안에 응답하는 시점, 그게 진짜 변곡점일 겁니다. 모델 크기 경쟁이 아니라 압축/가속 경쟁이 본격화되는 게 다음 2~3년의 핵심이라고 봅니다.

다만 제번스의 역설 때문에, 효율이 좋아진다고 AI 산업의 에너지 소비나 자본 투입이 줄어들지는 않을 겁니다. 더 많이 쓰게 되고, 더 큰 데이터센터가 필요해질 겁니다. 이게 또 다른 형태의 한계로 작용할 수도 있고요.

지금 자본은 여전히 "더 큰 모델"에 가있지만, 시장 재편은 "더 빠른 모델" 쪽으로 올 가능성이 높습니다. 그때 NVIDIA의 거대 GPU 패권이 흔들릴 수도 있고요.

틀릴 수도 있는 예측입니다. 다만 업계 마케팅이 말하는 것보다는 현실에 가까운 시나리오라고 생각합니다.

한줄요약: 거대LLM의 시대는 이제 슬슬 저물고 소형/고속LLM의 시대가 오게 될 것 같아 보입니다. 2027년쯤을 기점으로. 램값은 더 오를듯?

모두의공원

AI는 한계에 왔는가 — 하드웨어 관점에서 본 LLM의 미래 41