https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
AI 기술에 대해 깊이 아는 분이 아니어도 이해하기 쉽게 설명해 보겠습니다.
로컬LLM이든 서비스 기업의 모델을 이용하든,
대화를 하다 보면 그 기억을 잃고 엉뚱한 답을 내놓던 초기를 기억하실 것입니다.
이 때문에 대화 내용을 잃어 버리지 않게 하기 위한 그간의 노력이 있어 왔습니다.
대화 내용이 얼마 안되면 그리 부담을 느끼지 않겠지만,
전문가용 딥리서치 및 에이전트 기능을 이용하다 보면...
기하급수적으로 늘어나게 됩니다.
그런데 AI서비스 기업 입장에서는 각 사용자에게 이 대화 기억을 무한정 제공하다 보면,
서비스에 무리가 발생하게 됩니다.
여기서 등장하는 개념이 KV캐시라는 것이 있습니다.
몰라도 되니 그러려니 하시고요. (저도 자세히는 모릅니다. ^^)
구글의 터보퀀트는 그러니까 이 기억의 부피를 줄여 주는 역할을 하는 알고리즘입니다.
그럼 새로운 개념이냐고 하면.. 그렇지는 않습니다.
이런 정도의 사고는 이미 일찌감치 등장했었습니다.
그걸 구글이 기억을 압축하면서도 손실이 없게 하는 방식을 만들어 냈다는 것입니다.
이걸 시장에서는 메모리가 덜 필요할 것으로 해석하면서 충격이 온 것인데요.
물론 그럴 가능성이 없지는 않지만... 지금까지의 AI의 발전 과정을 돌이켜 보면...
오히려 더 대중화를 이끌어 내며 더 많은 메모리가 필요할 가능성이 더 높습니다.
지금의 장기 기억의 문제는 이미 여러 관련 기술로 어느 정도 극복해내는 지점에 와 있습니다.
그러나 원천적인 해결은 아니었기 때문에 KV캐시를 압축 하는 것은
오히려 그간 활용하지 못했던 분야까지 시장을 확장 시키는 역할을 할 수 있습니다.
예를 들어 보겠습니다.
아무 기억이나 압축한다고 다 효율이 높지는 않겠죠.
짧게 주고 받는 대화 정도는 안 하는 것 보다 별반 나을 것도 없습니다.
개발자가 몇 시간 작업해야 하는 아주 긴 작업을 할 때...
이럴 대 효과가 극대화 됩니다.
그럼 AI서비스 기업들은 이런 롱 컨텍스트 관련 에이전트 서비스를 더 늘림과 동시에
울트라가 아닌 프로 구독자에게도 풀어 줄 수 있겠죠.
이런 식으로 서비스 확대 및 시장 확대의 길목에서
한 단계 점프하는 역할을 하는 것으로,
기억 하는 메모리 절약 때문에 삼성전자와 하이닉스의 메모리가 덜 필요로 할 것이라는,
해석은....과거 온디바이스, ASIC 때문에 엔비디아 제품이 덜 팔릴 것이라고 했던 주장과
흡사해 보입니다.
덧) 예를 하나 들어 보면 이렇습니다.
서비스가 아니라 로컬LLM을 집에서 돌린다고 가정해 보겠습니다.
16GB의 GPU로 12GB 모델을 올려서 사용하게 되면,
이제 대화 내용을 기억해야 하는 KV캐시 용량이 약 3GB가 남습니다.(시스템 안정성을 위해 약간의 마진으로 1GB정도 남겨 둡니다. 오프로딩을 하게 되면 시스템메모리로도 되지만 좀 느려집니다.)
이것으로 대화를 열 번 정도 했다고 칩니다.
이 3GB가 기억하던 대화 내용을 몇 배 압축을 합니다.
그럼 16GB 사용하던 사람이 몇 배 압축이 된다고 해서 1GB 이하로 할당하면서,
15GB 를 쓰다가 13GB 이하로 쓰게 될 것이라는 말과 비슷한 것으로,
오히려1 15GB로 더 많은 컨텍스트 용량을 선택하여 활용할 것입니다.
서비스 기업 역시 더 많은 기능을 프로 구독자에게 뿌리고,
또 그 위의 천만 컨텍스트를 울트라로 서비스 하는 방식을 취하게 될 것으로 보는 것입니다.
게임피씨에 몇년전 풀뱅으로 메모리 채워놓고 (그래봤자 64기가였지만 ) 조아졌다~ 저렴해지는것도 있고 그랬는데, 짠돌이 맥이 램 혜자라는 이야기를 듣는지경이 ;;