재밌는거 보이길래 보고나서 한번 가져와봤어요
제목: 추론이 어려운 이유는 무엇인가요?
이 영상은 대규모 언어 모델(LLM)을 실행하기 위한 추론(Inference) 과정의 기술적 복잡성과 그 핵심 요소인 모델 로딩 및 양자화(Quantization) 기술을 다루고 있습니다.
### 주요 내용:
• 모델 로딩과 메모리 관리 (2:46 - 5:38): 모델을 효율적으로 불러오기 위해 운영체제의 mmap(메모리 맵) 방식을 사용하여 필요한 데이터만 메모리에 로드하는 효율적인 방법을 설명합니다. 이는 특히 `llama.cpp`와 같은 엔진에서 빠르게 시작하는 데 도움을 줍니다.
• 양자화 기술 (6:38 - 14:41): 모델의 가중치 정밀도를 낮추어 더 적은 메모리로 실행할 수 있게 하는 다양한 기법을 소개합니다.
• 표준 양자화(RTN)와 GGUF: 가중치를 그룹화하고 정규화하여 정보를 압축하는 기본적인 방법입니다.
• AWQ 및 EXL2: 모델의 중요한 가중치(Salient weights)를 찾아 정밀도를 보존하며 효율성을 극대화하는 고급 기법입니다.
• 하드웨어 가속: GPU 아키텍처에 특화된 FP8, NVFP4와 같은 저정밀도 연산 방식을 언급합니다.
이 영상은 추론 엔진들이 각기 다른 방식으로 모델을 로드하고 스케줄링하는 이유를 설명하며, 향후 다룰 사전 충전(Pre-fill), 디코딩, 서빙 등에 대한 기초적인 가이드라인을 제공합니다.