RAG라는 것을 알게 되었습니다.
RAG라는 것은 결국 노트북LM이라고 이해하고 있습니다.
LLM이 내가 올려준 문서에 근거해서 답변하고 문서에 없는 내용은 모른다고 답하는.... 그런 거죠...
그래서 교과서와 기술문서들을 올려놓고 LLM이 그것을 근거로 답변을 해주면.... 내가 책을 뒤적거리는 수고를 덜 수 있겠다.
라는 것이 삽질의 동기였습니다.
사용된 서버는 오라클 프리티어.
구성은 VM.Standard.A1.Flex
OCPU 개수 는 2개
램은 6기가
RAG에 사용된 플랫폼은 n8n
자료를 올려서 저장하는 것 까지는 어찌어찌되더군요...
이제 저장된 자료를 LLM이 참조해서 답변을 반환하면 되는 단계.
로컬 LLM을 사용해야겠다.
마침 구글에서 gemma4라고 핸드폰에서도 돌아가는 로컬LLM이 나왔다고 해서 설치....
어라??
서버사양이 너무 딸리나????(예전에 마인크래프트 서버정도로만 사용할 생각에..저렇게 사용했더니...)
올려보자....
약 일주일에 걸친 무한 시도 끝에 OCPU 4개 램은 23기가로 올리고.(역시나 무료티어)
gemma4설치후 실행....
터미널에서 그냥 일상대화시도 -> 되기는 함...CPU점유율은 100%로 유지되면서 답변나오는데...5분이상은 걸리는 듯....
n8n의 chat AI로 연결했더니...쓸 수가 없을 정도로 느림.....
핸드폰에서도 돌아간다며!!!!
최대한 가벼운 LLM모델(gemma도 아닌...그 어떤 것..)을 선택했으나... 속도는 개선되었으나...
과연 답변이 자료를 참조한 것이 맞는지 의심되는 정도로 저질 답변이 나옴....
며칠은 이것저것 해보았으나... 저질 답변 혹은 답변시간이 너무 오래 걸리는 주제에 답변은 저질...
그래서
로컬 LLM 사용포기...
아무거나 질문란에 질문을 올려서 다른 분이 가르쳐주신 openrouter.ai에 가입...
크레딧을 10달러 충전하기 위해 10.8달러 결제( 어라? 수수료가 5.5% 라고 들은 듯 한데.... 왜 8%이지?? 라고 생각함)
결제 후 가장 가성비 있다는 deepseek 3.2 모델을 사용해 봤더니...
같은 자료를 참조한 것이 맞나 싶은 수준의 답변이 나옴...
' 이 정도면 겨우 쓸만하다.'정도의 답변이지만 감격스러움!!!
하지만..역시나 무서운 종량제...
간단한 질문의 답변 하나 만드는데....토큰을 많이씀... 원화로 계산하니 대략 16원..
가장 가성비 좋다는 모델인데도
복잡한 질문을 하면 답하나 보는데 돈이 얼마나 들지...
하루에 질문을 꽤 많이 할꺼 같은데....라는 생각이 드니...
정말 맥미니를 하나 구해야 하나? 맥미니 가격이면 한 3년은 맘껏 사용하는 금액과 비슷한 거 아닌가? 3년이면 뭔가 또 획기적인 것이 나오지 않을까?
그런 생각이 들었습니다.
멍청해서 되는게 없는 모델은 돌릴수 있습니다
메모리 용량과 대역폭 병목 때문에 대략 15~25tps 정도로 성능 하락이 예상된다는 답변을 50.66tps 속도로 뱉어(?)냈습니다ㅎㅎ
비슷한 속도(50tps)를 확보하려면 어떤 모델이 좋겠냐고 물어봤더니, 파라메터 7~12b 정도의 4bit + MoE 모델을 사용해보라고 추천해주네요.
실제로 쓸만한 RAG를 만드려면 Database에 Vector로 저장하는 것부터 시작하기 때문에 쉽지 않아요.
다른 분들 지적과 같이 RAG는 벡터DB로 돌리셔야 제대로된 결과가 나옵니다. 8GB 3060 GPU 하나 잡아서 RAG+벡터DB 세팅하면 충분히 쓸만한 수준으로 쓰고 있습니다.
아 그러고보니 임베딩 젬마를 쓰신게 아니라 젬마4를 그냥 사용하신 모양입니다? RAG 관련 학습이 안 된 상태로 그냥 사용시에는 제대로된 결과가 나오지 않으므로 버전이 낮더라도 임베딩 젬마로 테스트해보시기를 권합니다.
개발자가 아니라 개발을 할 일은 없지만, Codex에 연결시켜 돌려보려고 합니다.