CLIEN

본문 바로가기 메뉴 바로가기 보기설정 테마설정
톺아보기 공감글
커뮤니티 커뮤니티전체 C 모두의광장 F 모두의공원 I 사진게시판 Q 아무거나질문 D 정보와자료 N 새로운소식 T 유용한사이트 P 자료실 E 강좌/사용기 L 팁과강좌 U 사용기 · 체험단사용기 W 사고팔고 J 알뜰구매 S 회원중고장터 B 직접홍보 · 보험상담실 H 클리앙홈
소모임 소모임전체 ·굴러간당 ·주식한당 ·아이포니앙 ·MaClien ·방탄소년당 ·일본산당 ·개발한당 ·자전거당 ·이륜차당 ·소시당 ·AI당 ·패스오브엑자일당 ·안드로메당 ·나스당 ·클다방 ·바다건너당 ·걸그룹당 ·사과시계당 ·물고기당 ·전기자전거당 ·노젓는당 ·노키앙 ·가상화폐당 ·곰돌이당 ·윈폰이당 ·축구당 ·키보드당 ·리눅서당 ·IoT당 ·창업한당 ·소셜게임한당 ·여행을떠난당 ·골프당 ·콘솔한당 ·디아블로당 ·찰칵찍당 ·3D메이킹 ·X세대당 ·ADHD당 ·AI그림당 ·날아간당 ·육아당 ·배드민턴당 ·야구당 ·농구당 ·블랙베리당 ·비어있당 ·FM당구당 ·블록체인당 ·보드게임당 ·활자중독당 ·볼링친당 ·캠핑간당 ·냐옹이당 ·문명하셨당 ·클래시앙 ·요리한당 ·쿠키런당 ·대구당 ·DANGER당 ·뚝딱뚝당 ·개판이당 ·동숲한당 ·날아올랑 ·e북본당 ·갖고다닌당 ·이브한당 ·패셔니앙 ·도시어부당 ·FM한당 ·맛있겠당 ·포뮬러당 ·젬워한당 ·안경쓴당 ·차턴당 ·총쏜당 ·땀흘린당 ·하스스톤한당 ·히어로즈한당 ·인스타한당 ·KARA당 ·꼬들한당 ·덕질한당 ·어학당 ·가죽당 ·레고당 ·LOLien ·Mabinogien ·임시소모임 ·미드당 ·밀리터리당 ·땅판당 ·헌팅한당 ·오른당 ·영화본당 ·MTG한당 ·소리당 ·적는당 ·방송한당 ·PC튜닝한당 ·그림그린당 ·소풍간당 ·심는당 ·라즈베리파이당 ·품앱이당 ·리듬탄당 ·달린당 ·Sea마당 ·SimSim하당 ·심야식당 ·윈태블릿당 ·미끄러진당 ·나혼자산당 ·스타한당 ·스팀한당 ·파도탄당 ·퐁당퐁당 ·테니스친당 ·테스트당 ·빨콩이당 ·공대시계당 ·터치패드당 ·트윗당 ·VR당 ·시계찬당 ·WebOs당 ·위스키당 ·와인마신당 ·WOW당
임시소모임
고객지원
  • 게시물 삭제 요청
  • 불법촬영물등 신고
  • 쪽지 신고
  • 닉네임 신고
  • 제보 및 기타 제안
© CLIEN.NET
공지[점검] 잠시후 서비스 점검을 위해 약 30분간 접속이 차단됩니다. (금일 18:15 ~ 18:45)

개발한당

질문 네이버 카페 크롤링 webdriver 말고 사용가능한게 있을까요? 13

2020-07-29 17:40:33 221.♡.108.241
가봐야안다

현재는 셀레니움 써서 크롤링하고 있는데 중간에 드라이버가 자주 뻗기도 하고,

무슨 이유에선지 특정 게시물에서는 html을 제대로 읽지 못하는 문제도 있고 그래서 다른 방법을 찾고 있습니다.

다른 방법 알고 계신 것 있나요?

가봐야안다 님의 게시글 댓글
  • 주소복사
  • Facebook
  • X(Twitter)
댓글 • [13]
nikescar
IP 183.♡.112.32
07-29 2020-07-29 18:45:44 / 수정일: 2020-07-29 18:46:20
·
POST 메시지 리퀘스트만 던져서 원하는 결과만 받게 만들수도 있을겁니다. 근데 멈추는 원인을 먼저 파악하는게 좋을겁니다.
크롤링 하다보면 가장 많이 막히는게 로그인인데 로그인은 사람이 하고 받은 쿠키의 세션값으로 나머지는 자동화로 끌어 올수도 있습니다. 예전에 이런 프로그램만 만들어서 파는 사이트가 있었는데 오래전이라 이름을 까먹었네요.
깃헙에 소스 검색을 해보시면 누가 만든게 나오지 않을까 싶네요.
가봐야안다
IP 221.♡.108.241
07-29 2020-07-29 18:55:00
·
@nikescar님 멈추는게 자기마음대로라서 알기가 어렵습니다. python selenium 쓰고있는데 에러로그 찍어보면 최상위 exception에서 잡는데 stack로그 찍어봐도 별 도움이 안되고요.
특히 다른 카페에서는 잘 되는데 현재 돌리고 있는 카페에서만 발생하는 문제라서 짐작도 잘 안갑니다.

POST 방식으로 접근이 가능한지도 한 번 찾아봐야겠네요.
댓글 감사합니다.
iljllllj!l
IP 223.♡.203.105
07-29 2020-07-29 18:54:31
·
네이버 카페 비공식 api 있어요. requests 모듈로 해당 api에 요청할 수 있습니다.
가봐야안다
IP 221.♡.108.241
07-29 2020-07-29 18:57:11
·
@시농님 비공식이면 어디서 찾아볼 수 있을까요?
iljllllj!l
IP 223.♡.203.105
07-29 2020-07-29 19:31:11
·
가봐야안다님// https://www.clien.net/service/board/lecture/15167236?po=0&sk=commenter&sv=shp7724&groupCd=&pt=0CLIEN

2번항목 참고하세요!
샐리는병아리
IP 211.♡.12.129
07-29 2020-07-29 19:04:15
·
크롬 웹드라이버로 네이버 카페 크롤링 프로그램이랑 타 사이트 크롤링 프로그램을 몇번 만들어 납품한 적이 있는데,
그때 고생했던것중 하나가 "그냥 언제인지 모르게 다음 게시물의 http 페이지를 불러오지 못하는 경우" 였습니다.
Webdriver에서 headless 옵션을 끄고 브라우저로 띄워서 살펴보았는데
간혹 다음 게시물 주소로 이동할때 마다 페이지를 불러오지 못하고 흰색화면에서 멈춰있는 경우가 있더라구요.
저희는 while try catch 로 해당 페이지가 불러져왔는지 presence_of_element_located로 확인하고 반복해서 불러올때까지 시도하는 방식을 사용했었습니다.
그 후에 남품하고 고객사에서 크롤링만 하루 12시간 넘게 연속으로 돌리는데 문제가 없이 진행되었던 적이 있습니다.
그런데 특정 카페 하나에서만 그러시다고 하니.. 좀 아리까리 하긴 하네용...^^;
가봐야안다
IP 221.♡.108.241
07-29 2020-07-29 19:06:47
·
@PTERS님 이 카페에서만 문제가 많이 발생하는데 흰색화면도 아니고 웹드라이버에서는 페이지가 로드된 것처럼 보이는데 html 요소를 가져오지 못하는 경우가 있습니다. 이런 게시글은 몇 번을 반복해도 가져오지 못하더라고요. 그리고 돌려놓으면 어떤 때는 몇시간 돌다 꺼지고 어떤 때는 40시간 가까이 돌 때도 있고 그렇습니다 ㅋㅋ
샐리는병아리
IP 211.♡.12.129
07-29 2020-07-29 19:10:27
·
@가봐야안다님 그렇군요.. 정말 답답한 상황이시겠습니다 ㅜㅜ.. 혹여 자바스크립트로 html이 그려진다던가, iframe을 사용하는 경우에는 html요소가 그려지기 전에 웹드라이버가 태그를 들고오기때문에, 그럴경우가 있으니 한번 확인해보셔도 좋을것 같습니다.
윗 댓글에 비공식 api가 있다고 하시는데 미리 알았더라면 저도 고생좀 덜했을텐데 아쉽네요...ㅜ
susemi99
IP 211.♡.226.243
07-29 2020-07-29 19:54:41
·
루비로 다른 사이트 크롤링할 때 https://github.com/sparklemotion/mechanize 이거 쓰는데, 파이썬은 이런 거 없나요?
가봐야안다
IP 122.♡.95.9
07-29 2020-07-29 22:07:26
·
@쎄미님 있는데, 네이버 카페가 좀 까다로운 편이라 잘 안됩니다. 쿠키 보내서 해결하는 방법도 2018년에 쓰여진 글을 봤는데 최근에 막힌건지 보고 따라해도 안되네요
susemi99
IP 211.♡.226.243
07-29 2020-07-29 23:08:11
·
@가봐야안다님 모바일용 url로 해도 그런가요?
가봐야안다
IP 122.♡.95.9
07-29 2020-07-29 23:11:10
·
@쎄미님 넵 데스크톱은 무슨 거대한 장벽같고 모바일이 그나마 쉬워서 모바일 페이지로 하고있습니다
삭제 되었습니다.
가봐야안다
IP 221.♡.108.241
07-30 2020-07-30 12:30:28
·
@피로곰님 말씀 감사합니다. 피로곰님만큼 경험 많으신분도 예외처리 애로사항이 많은게 크롤링이군요. 아는 지식이 없다보니 에러가 났다 하면 원인 파악할 엄두도 안났는데 이런 요소들이 있군요. 여러 말씀 감사합니다.
새로운 댓글이 없습니다.
이미지 최대 업로드 용량 15 MB / 업로드 가능 확장자 jpg,gif,png,jpeg,webp
지나치게 큰 이미지의 크기는 조정될 수 있습니다.
목록으로
글쓰기
글쓰기
목록으로 댓글보기 이전글 다음글
아이디  ·  비밀번호 찾기 회원가입
이용규칙 운영알림판 운영소통 재검토요청 도움말 버그신고
개인정보처리방침 이용약관 책임의 한계와 법적고지 청소년 보호정책
©   •  CLIEN.NET
보안 강화를 위한 이메일 인증
안전한 서비스 이용을 위해 이메일 인증을 완료해 주세요. 현재 회원님은 이메일 인증이 완료되지 않은 상태입니다.
최근 급증하는 해킹 및 도용 시도로부터 계정을 보호하기 위해 인증 절차가 강화되었습니다.

  • 이메일 미인증 시 글쓰기, 댓글 작성 등 게시판 활동이 제한됩니다.
  • 이후 새로운 기기에서 로그인할 때마다 반드시 이메일 인증을 거쳐야 합니다.
  • 2단계 인증 사용 회원도 최초 1회는 반드시 인증하여야 합니다.
  • 개인정보에서도 이메일 인증을 할 수 있습니다.
지금 이메일 인증하기
등록된 이메일 주소를 확인하고 인증번호를 입력하여
인증을 완료해 주세요.