모델 다운받고 챗서버에 로딩해서 간단히 돌려봤습니다. 질문을 구체적으로 하면 나름 잘 대답해줍니다.
느낌상으론 koalpaca 13b 8bit 양자화 버전 보다 라마2 7b가 조금 더 나은 것 같습니다. 13b와 70b 는 아직 돌려볼 인프라가 없네요.
rtx 4090으로 돌렸고 gpu 메모리는 대략 14~15 기가 정도 점유합니다. 응답속도는 나쁘지는 않습니다. 128 토큰 정도면 늦어도 4-5초 안에는 답변이 나오는것 같습니다.
모델 다운받고 챗서버에 로딩해서 간단히 돌려봤습니다. 질문을 구체적으로 하면 나름 잘 대답해줍니다.
느낌상으론 koalpaca 13b 8bit 양자화 버전 보다 라마2 7b가 조금 더 나은 것 같습니다. 13b와 70b 는 아직 돌려볼 인프라가 없네요.
rtx 4090으로 돌렸고 gpu 메모리는 대략 14~15 기가 정도 점유합니다. 응답속도는 나쁘지는 않습니다. 128 토큰 정도면 늦어도 4-5초 안에는 답변이 나오는것 같습니다.