엔비디아 생각이 나지 않을 수 없습니다.
항상 우려 먹던 이슈로, 매번 실적으로 증명해도 따라 붙던...
구글의 터보퀀트는 그러니까 kv캐시 압축 기술인데,
이 압축이 쓸모는 있어도 손실이 있어서 쓰는 사람만 쓰던 것을,
손실이 없는 알고리즘을 개발했다하여...
그렇다고 엔비디아가 아직 갈길이 많은 데이터센터에
HBM을 쪼금 달고 나갈리는 없는데...
설레발로 주가를 눌러 버리는군요.
메모리를 덜 사용하면 더 큰 모델 더 고성능 모델,
장기 컨텍스트를 늘리는 방향으로 가지,
메모리 사용량을 줄일 거라는 논리는 당최...
온디바이스 때문에 엔비디아 GPU가 덜 팔릴 거라던..
작년 이슈가 떠오르는 대목입니다.
압축으로 메모리 효율이 좋아지면 더 큰 data를 처리해서 인공지능 성능을 올리는데 사용하겠죠...
HBM 수요와는 상관이 없다는 개인적인 생각입니다.
제 말도 그런 뜻인데,
이걸 주요 재료로 외인이 주가를 눌러 버리니...ㅎㅎ
삼전이 빠지니 다 같이 빠지는군요..;;;
kv캐시 압축을 하게 되면,
컨텍스트가 크게 늘어날 수 있어서,
AI발전을 한층 가속도가 붙게 하는 역할은 하겠습니다.
딥시크때. 생각나네요.
음...어디서 나온 말인지 궁금하네요.
이 기술은 그러니까...
대화 내용.. 그 걸 기억하는 용량을 압축해서 기억한다는 의미여서,
실제 학습 및 추론 때 절약 되는 메모리 사용량이 6배라는 것은 전체가 아니라...컨텍스트 기억에 한정 된 이야기로, 아마 다른 GPU에도 되지 싶습니다.
https://turboquant.net/#core
KVPress할때 더 가치가 높지 저기서쓸수 있는 커널들은 다 루빈 블랙웰 아키텍쳐에 녹아 있어요 신형은 KVPress하지 않아도 될 HBM여유가 많죠 NVL72 생각하면 140G*72수준이니 굳이 안해도 되는거죠
제 생각을 말씀드리자면....
AI 전쟁이 그렇게 나이브하게 진행 된다고 생각하지 않습니다.
문자 그대로... 사활을 걸고 하는 전쟁 중인데,
더 성능 높은 모델과 더 질 좋은 서비스를 위해 더 많이 도입해서 경쟁 우위를 달성하려 할 것으로 보고 있습니다.
저변을 넓히는 효과도 있을 것이고요.