잘은 모르지만 저 개인의 이해를 돕기 위해서
AI와의 여러 대화를 통해서 일반적인 상식을 간단하게 정리했습니다.
제가 전문가가 아니라서 사실과 다른 부분이 있을 수도 있으니 참고 정도로만 보아 주세요
1. AI 일반 상식
AI 서비스는 수십업~수조개의 파라메터를 가진 거대한 함수이고
인간이 프로그램하는 것이 아닌 학습에 의해서 자동으로 파라메터가 정해진다 (최적화 된다)
때문에 추론 서비스는 용량의 문제를 해결하면
대부분의 컴퓨터에서 운용이 가능하지만 추론 속도는 현저하게 떨어질 수 있다
데이터 센터 임대가 가능한 이유이다
AI 추론 버그가 발생하면
인간이 만든 프로그램 부분은 코딩을 수정하지만
AI 추론 부분은 재 학습이나 파인 튜닝으로 해결한다.
최신 추론 모델은 한번의 연산 결과를 다시 연산하는 과정을
반복적으로 수행함으로서 컴퓨터 자원을 훨씬 더 많이 차지하게 된다
- 메모리 수요 폭팔의 직접적 원인중 하나이며
필요로 하는 모델 크기가 증가한 것도 큰 원인 중 하나 이다
2. 현재의 메모리 사태는 빅테크도 예측하지 못한 결과이다
2023년에는 추론은 훈련보다 훨씬 싸질 것으로 예측 했지만
1항에서 언급한 바와 같이 실제 서비스/모델이 개선/변경 되면서
추론 비용이 (컴퓨팅수요) 급격하게 상승하였다
이 과정에서 메모리 사용량이 예측 치보다 크게 증가 하였다
3. 데이터 센터의 수명이 길지 않다
AI 훈련용 데이터 센터는 거대 언어모델의 경우 80% 이상의 부하로 24시간 가동하고
비용 효율면에서 2~4년의 주기로 교체하는 것이 오히려 경제적이다
교체된 서버는 추론용으로 다시 사용되거나 임대를 하게 된다.
AI 추론 서비스용 데이터 센터는 서비스 수명이 3-7년 정도로
예상하는 전문가가 많으며 일반적인 데이터 센터보다 수명이 짭다고 합니다.
서비스 모델이 필요로 하는 컴퓨팅 양이 폭증하면서
컴퓨터 자원 수요가 급격하게 증가하였고
데이터 센터의 수요도 폭증 하게 되었다
즉 간단하게 예측해보자면
추가 메모리 수요 = AI 데이터 센터 수요 X 6-7년 사이클
물론 추론 효율화로 컴퓨팅 수요가 줄면 메모리 수요도 줄 수가 있다
4. 엣지 컴퓨터는 이제 시작이다
로봇, 자율주행이 일상화 되면 여기에도 메모리가 상당하게 들어간다
테슬러 모델의 경우 16-32G 메모리가 들어가지만
자동차 자율 주행에 최적화된 AI ASIC (SOC)를 필요로 한다
엔디비아 모델은 다양한 AI 모델을 지원해야 함으로
더 큰 메모리/더 고성능의 연산이 요구된다
테슬라처럼 AI결과가 치명적인 결과를 초래하는 경우
최종단에서 인간이 프로그램한 안전 단계를 추가하기도 한다
개인적으로는
테슬라 방식처럼 특정 목적에 맞게 AI 모델과 반도체를 함께 설계하는 형태가
장기적으로 주류가 될 가능성이 크다고 생각합니다.
5. 위협 요인
메모리 폭증과 서비스 효율화를 위해서 CPU와 메모리를 합치려는 다양한 시도들이 늘어나고 있다
현재 삼성은 이들 모두를 대응하고 있는 종합 반도체 회사이다
테슬라는 자체 펩을 건설하려고 하지만 (테라펩)
자체 팹 기술이 부족하기 때문에 인텔 마이크론과 협력하려고 하고 있다.
인텔은 파운드리 경쟁에서 승리하기 위해서 전략적으로 테슬라와 투자 협력이 필요한 상황이다
하이닉스는 HBM에서 엔디비아 TSMC와 협력하지만
TSMC와는 장기적으로는 공급망 구조 변화와 경쟁심화 가능성도 존재한다
중국의 부상 평가는 현재로서는 어렵다.
그래도 심각하게 생각하진 않았습니다. 왜냐하면 이렇게 빨리 사람들이 사용을 원할거라고 예측을 못했던거죠. 한마디로 이렇게 성능이 좋아질지 몰랐죠.