CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·주식한당 ·아이포니앙 ·MaClien ·일본산당 ·방탄소년당 ·개발한당 ·자전거당 ·안드로메당 ·이륜차당 ·소셜게임한당 ·육아당 ·나스당 ·AI당 ·디아블로당 ·소시당 ·가상화폐당 ·골프당 ·야구당 ·걸그룹당 ·젬워한당 ·클다방 ·리눅서당 ·IoT당 ·패셔니앙 ·맛있겠당 ·키보드당 ·사과시계당 ·PC튜닝한당 ·캠핑간당 ·3D메이킹 ·X세대당 ·ADHD당 ·AI그림당 ·날아간당 ·배드민턴당 ·농구당 ·블랙베리당 ·곰돌이당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·냐옹이당 ·문명하셨당 ·클래시앙 ·콘솔한당 ·요리한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·개판이당 ·동숲한당 ·날아올랑 ·전기자전거당 ·e북본당 ·갖고다닌당 ·이브한당 ·물고기당 ·도시어부당 ·FM한당 ·포뮬러당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·KARA당 ·꼬들한당 ·덕질한당 ·어학당 ·가죽당 ·레고당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·오른당 ·영화본당 ·MTG한당 ·소리당 ·노키앙 ·적는당 ·방송한당 ·바다건너당 ·찰칵찍당 ·그림그린당 ·소풍간당 ·심는당 ·패스오브엑자일당 ·라즈베리파이당 ·품앱이당 ·리듬탄당 ·노젓는당 ·달린당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·축구당 ·나혼자산당 ·스타한당 ·스팀한당 ·파도탄당 ·퐁당퐁당 ·테니스친당 ·테스트당 ·빨콩이당 ·공대시계당 ·여행을떠난당 ·터치패드당 ·트윗당 ·창업한당 ·VR당 ·시계찬당 ·WebOs당 ·위스키당 ·와인마신당 ·WOW당 ·윈폰이당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

AI당

질문 embedding할때 파일이 수천개 나오는데, 이게 정상인가요? 8

2024-04-06 07:32:39 1.♡.173.35
간실장

랭체인으로 docs gpt 같은 것을 만들어 보고 있습니다.

기본적인 것은 우선 다 학습된 상태인데.. 심화로 가니, 어려운 부분이 조금씩 나오고 있네요.. ㅡ.ㅜ;

우선 파일을 업로드해서 embedding을 시키고 있습니다.

현재 faiss와 openai를 사용해서 시키고 있습니다.

근데, 16메가정도 파일을 임베딩하니.. 1400개정도의 파일이 생성이 되더군요.. 

최대한 검색이 잘 되게 작게 잘아야 한다고 해서 청크 사이즈는 1000으로 맞춰서 파일이 많을수는 있는데..

100메가 넘어가는 파일을 임베딩하면 대충 만개 이상의 파일이 나오게 되는데, 이게 맞는건가요??


너무 무식해 보여서 다른 방식으로 임베딩을 해야 하지 않을까 생각하는데.. 이게 맞는지 잘못된 방향인지를 모르겠습니다.

혹 관련 자료나 아시는 분 없으신지요?? 


간실장 님의 게시글 댓글
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [8]
엉클머리
IP 220.♡.180.115
04-12 2024-04-12 09:53:18 / 수정일: 2024-04-12 09:54:11
·
더 잘게 자르셔야 할 거 같은데...yo 원래 많습니다. 데이터 관리하는 것도 관건입니다.
간실장
IP 1.♡.173.35
04-12 2024-04-12 13:24:14 / 수정일: 2024-04-12 13:24:29
·
@엉클머리님 일반적으로 chunk 1000으로 많이 자르더군요..
문서 규모가 적거나 짧은 문장이면 한 600정도 사용하는거 같고, 테스트 해 보고 괜찮다 싶으면 더 자르는거야 그럴수 있는데..
궁금한 것은 100메가나 그 이상 되는 파일들은 어떻게 자르냐는 겁니다..
이런 방법으로 무식하게 수십~수백만개로 짤라야 하는지 맞는지 의구심이 드는 겁니다..
yongth
IP 116.♡.33.162
04-17 2024-04-17 23:26:34
·
@간실장님
획일적인 chunking은 LLM의 해독력을 떨어뜨립니다. 반드시 문맥을 해치지 않는 contextual한 chunking이 필요합니다. 대량(페이지) 및 대용량의 파일은 개인 영역에선 어렵고 저희 회사도 RAG만 한 1년 넘게 파서 제품화 했습니다.
간실장
IP 1.♡.173.35
04-17 2024-04-17 23:38:14
·
@yongth님 답변 감사합니다.
현재 돌아가는 형국을 보면, 100메가정도 되는 것을 임베딩 하는 것은 일도 아닐거 같은데..
청크말고 다른 방법으로든.. 뭐든 해서요..
요.. 기술적인것을 조금 알고 싶은데, 청크 말고 다른 방법이 있다면 좀 알려주세요.. 이곳에 적기 그러면 쪽지라도..ㅎㅎ
기가급은 되어야 개인이 힘들거나 생각했지.. 메가급에서 개인이 임베딩이나 학습(?) 시키는데 문제가 생길줄은 몰랐습니다.

RAG를 1년동안 했으면 데이타가 어느정도 된다는 말씀인지.. 또한 궁금하네요.. ^^;
Whoknows
IP 211.♡.65.70
04-18 2024-04-18 18:26:11
·
@엉클머리님
관건은 yongth님이 말씀하신 text chunk를 llm이 잘 이해할 수 있게 조각내는 방법과(사용되는 문서 혹은 data 리소스에 따라 상이한 라이브러리 사용 혹은 직접 구현이 필요한 부분입니다.),
embedding 모델의 차이로 보여집니다. dimension에 따른 유사도 검색 결과의 차이가 있습니다. (이 부분도 다양한 모델을 직접 테스트 해보시면 좋을 것 같습니다.)
엉클머리
IP 220.♡.180.115
04-18 2024-04-18 19:55:15 / 수정일: 2024-04-18 20:05:24
·
@Whoknows님 멘션해주셔서 소환되었습니다. :-) 클리앙에 작성했던 글 이외에도 최근에 몇 가지 에이전트를 만들고 있습니다. 다른 분께서 상업용 제품에서 대해서 언급 하셨듯, 맥락에 의해 나누는 게 관건입니다. 컨텐츠에 따라 다르겠지만, 보통 국문은 그렇게 나누다보면 저 사이즈보다 작을겁니다. 그리고 맥락을 파악해서 나누는 비용이 크다보니까, 최근에는 맥락보다는 문서의 레이아웃등을 이용해서, 사람이 단락이나 챕터를 인식하듯 문서의 모양을 보고 자르는 방법으로 상업용 솔루션 수준의 결과는 내고있다고 어디선가 읽었습니다. 너무 작은 문단일 경우 상하위 문단의 유사도를 이용해 어디까지 포함될 것인가 결정하는 등, 쉽게 풀어갈 수 있습니다.

https://github.com/Filimoa/open-parse
yongth
IP 125.♡.156.201
04-19 2024-04-19 15:00:12 / 수정일: 2024-04-19 15:00:50
·
@간실장님
사실 chunking 만으로 되는건 아니고 임베딩, chunking, 검색이 어우러져 더하기가 아닌 곱하기 방식으로 적용되어 모든 과정이 다 중요합니다. 하나라도 퍼포먼스가 낮으면 답변 품질이 떨어지게 돼요. 검색도 여러 방식을 믹스해서 써야해서 커뮤니티에서 공유해 드릴만한 내용이 아니라... ㅠㅠ
간실장
IP 1.♡.173.35
04-19 2024-04-19 17:15:48
·
답변 주신 분들 감사합니다.
좀더 파 봐야겠네요.
저도 빨리 상용화를 하고픈데, 갈길이 머네요.. ㅡ.ㅜ;
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.