llama7B vs llama13B vs alpaca-7B vs koalpaca-7B : 클리앙 (clien.net)
vs alpaca-30B-lora 버전 테스트 추가했습니다. (4bit 양자화, VRAM 20G, 9 tokens/s)
baseten/alpaca-30b at main (huggingface.co)
lora 파인튜닝에 4bit 양자화된 버전이지만 alpaca7B native 보다 weight의 개수가 4배이상 많으니 성능이 좋게 나오네요.
다른 모델들보다 장문 역시 아주 잘 작성합니다.
4090에서 GPTQ로 4bit 양자화하는데 한시간 가까이 걸리네요,,,,,,
풀튜닝은 엄두도 못내겠고 나중에 llama7B + lora로 파인튜닝 해봐야겠어요