이 글은 그저 뇌피셜입니다. ㅎㅎ
보통 양자화를 해서 쓰는데요.
vram이 8GB면 시도가 어렵고,
대개 가장 많이 로컬을 찾는 브램이 16GB라고 보면,
양자화를 했을 때 4Q가 되어야 손실이 많지 않습니다.
최적은 Q4_K_S가 아니라 Q4_K_M입니다.
Q4_K_M의 용량이 27B 기준으로 양자화를 하면 대략 15GB 전후가 됩니다.
그럼 컨텍스트 할당량이 거의 없게 되죠.
물론 테스트 삼아 쓸 때는 오프로딩 하면 되지만...
실사용에서는 무리겠죠.
그렇다면 Q4_K_M 로 양자화 했을 때의 최적의 용량은
11GB 이내라고 볼 수 있습니다.
더군다나 근래에는 KV캐시 관련 연구가 뜨거운 상태라
컨텍스트를 128K 정도는 쓸 수 있게 될 듯 합니다.
256K는 좀... 브램이 커야 되고요.
암튼,
Q4_K_M 11GB 안쪽으로 나오면 21B 사이즈로 나와줘야 될텐데...
이 사이즈는 하나같이 피하더란 말이죠..ㅎㅎ
이 문제 제기가 뇌피셜입니다. ㅎㅎ 왠지 사용자층 많은 로컬은 피하는 거 아닐까....하는,
느낌 적인 느낌이랄까요.
최근 gemma4 26B가 성능이 좋은 거 같은데, 그 중 일부 layer를 쳐낸 21B 버전과 19B 버전이 있길래 돌려봤더니 하필 한국어layer를 쳐냈더군요... 어떻게 만든 건지 몰라도 중국어를 쳐낸 버전을 내 주면 좋으련만.
32GB 는 거의 빠듯할꺼 같기도 하구요.