남들이 해 놓은 육손 벤치나 세차장 벤치를 보니 잘 통과 하네요.
젬마4에 간단한 주제를 던져 글을 쓰게 해봤습니다.
.... 결과는...
헐... 입니다.
안 그래도 젬마가 한국어를 잘했는데,
이번에.... 미쳤네요.
괴물이 나와 버렸습니다.
Qwen3.5 보다 체감이 더 좋네요.
어차피 로컬 모델은 상상력이 제한 되어 있어서
도토리 키재기입니다.
대신 뭐가 중요하냐면,
작은 모델인 만큼 최대한 그 안에서 많은 지식이 있어야 하고,
사용자가 프롬프트를 통해 무엇을 원하는지 파악하고,
그에 맞는 답을 하는 것이 중요한데,
그걸 잘합니다.
지시 이행을 잘 한다는 말입니다.
GPU : 9070 16GB
모델 : Gemma 4-31B 의 4비트 GGUF 모델, 용량 18GB,
오프로딩해서 속도는 느렸지만 성능 확인 차 테스트에 쓰였고,
실 사용은 Gemma -4-26B MoE가 더 빠르니 이걸로 써야 할 것 같습니다.
최신 CPP로 업데이트 받으면 된다고 합니다.
옵션 > runtime 에 들어가셔서 업데이트요.
그러니까요..ㄷㄷㄷ
저처럼 오프로딩해서 쓰면 거기서 거깁니다. 굉장히 느리죠.
프롬프트 넣고... 한참 딴거 하고 있어야 됩니다.
26B MoE 모델은.. 4비트로 하면, 4060이나 5060 이어도 16GB 브램이면 될 것 같습니다.
브램이 비슷하면 모델 용량을 올릴 수 없어서 비슷할 겁니다.
다만 속도 면에서는 5070TI가 9070 보다... 못해도 30% 이상은 더 빠를 겁니다.
26B A4B MoE 모델로 테스트 해 봤을땐 일단 그렇습니다. 적당히 써먹을만하네요. Q4_K_M, Q8_0 을 비교해서 돌려봤는데 속도 측면에선 큰 차이를 느끼진 못 했습니다. Context 양이 그리 많지 않아서였는지는 모르겠네요.
추론을 더 빡쎄게 굴려서 테스트 해 봐야겠습니다.