gemma4 26b a4b 모델들을 이것저것 테스트 해보고 있습니다 : 클리앙

우선 사양은 라이젠 7800x3d, 32기가램, rtx5070ti 16기가인데

lm스튜디오로 사용하고 구글 공식 Gemma 4 26B A4B q4_k_m 사용시 gpu오프로딩 20레이어, kv양자화 q4주고 컨텍스트윈도우크기 16384일때 35/s토큰 정도 나와줍니다 사용하면서 컨텍스트 찰수록 30정도로떨어지구요

레이어 한개라도 더 올리거나 컨텍스트가 커져서 gpu공유메모리가 0.1이라도 넘어가는순간 토큰생성수가 1/10이하로 뚝떨어집니다 엄청난 병목이 생기죠

근데 unsloth 튜닝한 Gemma 4 26B A4B iq4_nl 사용시 gpu오프로딩 30레이어 통채로 올리고 gpu공유메모리 1.5GB를 넘겨도 토큰수가 110을 넘어갑니다 그래서 공식버전같이 공유메모리 안넘기게 레이어 조절해서 올리니 오히려 토큰수가 50초반대로 절반이 깍여버리네요

iq4_nl이 중요도를 기반으로 선택적으로 더 양자화 해서 가볍게 만든거라는데 진짜 가볍긴 하네요 공식버전과 지능차이도 못느낍니다

토큰수 100이 넘어가니까 화면에 뿌려지는게 엄청나게빠르네요

모두의공원

gemma4 26b a4b 모델들을 이것저것 테스트 해보고 있습니다 15