우선 사양은 라이젠 7800x3d, 32기가램, rtx5070ti 16기가인데
lm스튜디오로 사용하고 구글 공식 Gemma 4 26B A4B q4_k_m 사용시 gpu오프로딩 20레이어, kv양자화 q4주고 컨텍스트윈도우크기 16384일때 35/s토큰 정도 나와줍니다 사용하면서 컨텍스트 찰수록 30정도로떨어지구요
레이어 한개라도 더 올리거나 컨텍스트가 커져서 gpu공유메모리가 0.1이라도 넘어가는순간 토큰생성수가 1/10이하로 뚝떨어집니다 엄청난 병목이 생기죠
근데 unsloth 튜닝한 Gemma 4 26B A4B iq4_nl 사용시 gpu오프로딩 30레이어 통채로 올리고 gpu공유메모리 1.5GB를 넘겨도 토큰수가 110을 넘어갑니다 그래서 공식버전같이 공유메모리 안넘기게 레이어 조절해서 올리니 오히려 토큰수가 50초반대로 절반이 깍여버리네요
iq4_nl이 중요도를 기반으로 선택적으로 더 양자화 해서 가볍게 만든거라는데 진짜 가볍긴 하네요 공식버전과 지능차이도 못느낍니다
토큰수 100이 넘어가니까 화면에 뿌려지는게 엄청나게빠르네요
AMD 9070xt 도전해봅니다...
엄청원활하게 도네요. 그래픽카드와 32기가의 메인 메모리는 거의 꽉차네요??
그래도 답변 속도가 ollama에 그냥 26b 18기가 모델 돌릴 때와는 비교가 안되게 빨라서 실용적인 것 같습니다.
근데도 속도가 미친듯이 나오니까 좋네요
전 빠른 속도 필요 없는 걸로 오프로딩 해서 비슷한 크기로 사용하는데요.
채팅 하는 메뉴에서 모델 로드할때 모델 선택후 밑에 쇼 어드밴스드 세팅 토클 켜면 이것저것 세팅 할수잇습니다
Gemma 4 26B A4B iq4_nl 을 찾으라는거죠?
저도 돌려봐야겠네요 고맙습니다