RAG 삽질중... : 클리앙

RAG라는 것을 알게 되었습니다.

RAG라는 것은 결국 노트북LM이라고 이해하고 있습니다.

LLM이 내가 올려준 문서에 근거해서 답변하고 문서에 없는 내용은 모른다고 답하는.... 그런 거죠...

그래서 교과서와 기술문서들을 올려놓고 LLM이 그것을 근거로 답변을 해주면.... 내가 책을 뒤적거리는 수고를 덜 수 있겠다.

라는 것이 삽질의 동기였습니다.

사용된 서버는 오라클 프리티어.

구성은 VM.Standard.A1.Flex

OCPU 개수 는 2개

램은 6기가

RAG에 사용된 플랫폼은 n8n

자료를 올려서 저장하는 것 까지는 어찌어찌되더군요...

이제 저장된 자료를 LLM이 참조해서 답변을 반환하면 되는 단계.

로컬 LLM을 사용해야겠다.

마침 구글에서 gemma4라고 핸드폰에서도 돌아가는 로컬LLM이 나왔다고 해서 설치....

어라??

서버사양이 너무 딸리나????(예전에 마인크래프트 서버정도로만 사용할 생각에..저렇게 사용했더니...)

올려보자....

약 일주일에 걸친 무한 시도 끝에 OCPU 4개 램은 23기가로 올리고.(역시나 무료티어)

gemma4설치후 실행....

터미널에서 그냥 일상대화시도 -> 되기는 함...CPU점유율은 100%로 유지되면서 답변나오는데...5분이상은 걸리는 듯....

n8n의 chat AI로 연결했더니...쓸 수가 없을 정도로 느림.....

핸드폰에서도 돌아간다며!!!!

최대한 가벼운 LLM모델(gemma도 아닌...그 어떤 것..)을 선택했으나... 속도는 개선되었으나...

과연 답변이 자료를 참조한 것이 맞는지 의심되는 정도로 저질 답변이 나옴....

며칠은 이것저것 해보았으나... 저질 답변 혹은 답변시간이 너무 오래 걸리는 주제에 답변은 저질...

그래서

로컬 LLM 사용포기...

아무거나 질문란에 질문을 올려서 다른 분이 가르쳐주신 openrouter.ai에 가입...

크레딧을 10달러 충전하기 위해 10.8달러 결제( 어라? 수수료가 5.5% 라고 들은 듯 한데.... 왜 8%이지?? 라고 생각함)

결제 후 가장 가성비 있다는 deepseek 3.2 모델을 사용해 봤더니...

같은 자료를 참조한 것이 맞나 싶은 수준의 답변이 나옴...

' 이 정도면 겨우 쓸만하다.'정도의 답변이지만 감격스러움!!!

하지만..역시나 무서운 종량제...

간단한 질문의 답변 하나 만드는데....토큰을 많이씀... 원화로 계산하니 대략 16원..

가장 가성비 좋다는 모델인데도

복잡한 질문을 하면 답하나 보는데 돈이 얼마나 들지...

하루에 질문을 꽤 많이 할꺼 같은데....라는 생각이 드니...

정말 맥미니를 하나 구해야 하나? 맥미니 가격이면 한 3년은 맘껏 사용하는 금액과 비슷한 거 아닌가? 3년이면 뭔가 또 획기적인 것이 나오지 않을까?

그런 생각이 들었습니다.

모두의공원