안녕하세요. AI 당에는 눈팅만 하고 글은 처음 쓰는 것 같습니다.
다름이 아니라. 맥에서 llama.cpp 통해서 model을 실행해서 처음에는 답변을 잘 해주는데,
조금 긴 문제 대해서 질문을 하면 무한로딩에 먹통이 됩니다.
먹통이 되면, ctrl+c 와 /bye 하고 난 뒤에 다시 llama.cpp 로 실행해서 들어아도 간단한 질문에도 응답없이 무한로딩을 합니다.
훅시 이런 경우 있으신가오. 이럴 때는 어떻게 해야 되는제 모르겠습니다.
실행환경: macbook m2 pro ram 16G
혹시, prompt 에서 계속 질의 하면, 이전 요청과 함께 리소스를 잡아먹는 구조 인가요?
감사합니다.