로컬 LLM은 왠지 최적의 사이즈로 내놓지 않는 느낌인데요. : 클리앙

이 글은 그저 뇌피셜입니다. ㅎㅎ

보통 양자화를 해서 쓰는데요.

vram이 8GB면 시도가 어렵고,

대개 가장 많이 로컬을 찾는 브램이 16GB라고 보면,

양자화를 했을 때 4Q가 되어야 손실이 많지 않습니다.

최적은 Q4_K_S가 아니라 Q4_K_M입니다.

Q4_K_M의 용량이 27B 기준으로 양자화를 하면 대략 15GB 전후가 됩니다.

그럼 컨텍스트 할당량이 거의 없게 되죠.

물론 테스트 삼아 쓸 때는 오프로딩 하면 되지만...

실사용에서는 무리겠죠.

그렇다면 Q4_K_M 로 양자화 했을 때의 최적의 용량은

11GB 이내라고 볼 수 있습니다.

더군다나 근래에는 KV캐시 관련 연구가 뜨거운 상태라

컨텍스트를 128K 정도는 쓸 수 있게 될 듯 합니다.

256K는 좀... 브램이 커야 되고요.

암튼,

Q4_K_M 11GB 안쪽으로 나오면 21B 사이즈로 나와줘야 될텐데...

이 사이즈는 하나같이 피하더란 말이죠..ㅎㅎ

이 문제 제기가 뇌피셜입니다. ㅎㅎ 왠지 사용자층 많은 로컬은 피하는 거 아닐까....하는,

느낌 적인 느낌이랄까요.

모두의공원