POST 메시지 리퀘스트만 던져서 원하는 결과만 받게 만들수도 있을겁니다. 근데 멈추는 원인을 먼저 파악하는게 좋을겁니다. 크롤링 하다보면 가장 많이 막히는게 로그인인데 로그인은 사람이 하고 받은 쿠키의 세션값으로 나머지는 자동화로 끌어 올수도 있습니다. 예전에 이런 프로그램만 만들어서 파는 사이트가 있었는데 오래전이라 이름을 까먹었네요. 깃헙에 소스 검색을 해보시면 누가 만든게 나오지 않을까 싶네요.
가봐야안다
IP 221.♡.108.241
07-29
2020-07-29 18:55:00
·
@nikescar님 멈추는게 자기마음대로라서 알기가 어렵습니다. python selenium 쓰고있는데 에러로그 찍어보면 최상위 exception에서 잡는데 stack로그 찍어봐도 별 도움이 안되고요. 특히 다른 카페에서는 잘 되는데 현재 돌리고 있는 카페에서만 발생하는 문제라서 짐작도 잘 안갑니다.
POST 방식으로 접근이 가능한지도 한 번 찾아봐야겠네요. 댓글 감사합니다.
iljllllj!l
IP 223.♡.203.105
07-29
2020-07-29 18:54:31
·
네이버 카페 비공식 api 있어요. requests 모듈로 해당 api에 요청할 수 있습니다.
크롬 웹드라이버로 네이버 카페 크롤링 프로그램이랑 타 사이트 크롤링 프로그램을 몇번 만들어 납품한 적이 있는데, 그때 고생했던것중 하나가 "그냥 언제인지 모르게 다음 게시물의 http 페이지를 불러오지 못하는 경우" 였습니다. Webdriver에서 headless 옵션을 끄고 브라우저로 띄워서 살펴보았는데 간혹 다음 게시물 주소로 이동할때 마다 페이지를 불러오지 못하고 흰색화면에서 멈춰있는 경우가 있더라구요. 저희는 while try catch 로 해당 페이지가 불러져왔는지 presence_of_element_located로 확인하고 반복해서 불러올때까지 시도하는 방식을 사용했었습니다. 그 후에 남품하고 고객사에서 크롤링만 하루 12시간 넘게 연속으로 돌리는데 문제가 없이 진행되었던 적이 있습니다. 그런데 특정 카페 하나에서만 그러시다고 하니.. 좀 아리까리 하긴 하네용...^^;
가봐야안다
IP 221.♡.108.241
07-29
2020-07-29 19:06:47
·
@PTERS님 이 카페에서만 문제가 많이 발생하는데 흰색화면도 아니고 웹드라이버에서는 페이지가 로드된 것처럼 보이는데 html 요소를 가져오지 못하는 경우가 있습니다. 이런 게시글은 몇 번을 반복해도 가져오지 못하더라고요. 그리고 돌려놓으면 어떤 때는 몇시간 돌다 꺼지고 어떤 때는 40시간 가까이 돌 때도 있고 그렇습니다 ㅋㅋ
샐리는병아리
IP 211.♡.12.129
07-29
2020-07-29 19:10:27
·
@가봐야안다님 그렇군요.. 정말 답답한 상황이시겠습니다 ㅜㅜ.. 혹여 자바스크립트로 html이 그려진다던가, iframe을 사용하는 경우에는 html요소가 그려지기 전에 웹드라이버가 태그를 들고오기때문에, 그럴경우가 있으니 한번 확인해보셔도 좋을것 같습니다. 윗 댓글에 비공식 api가 있다고 하시는데 미리 알았더라면 저도 고생좀 덜했을텐데 아쉽네요...ㅜ
크롤링 하다보면 가장 많이 막히는게 로그인인데 로그인은 사람이 하고 받은 쿠키의 세션값으로 나머지는 자동화로 끌어 올수도 있습니다. 예전에 이런 프로그램만 만들어서 파는 사이트가 있었는데 오래전이라 이름을 까먹었네요.
깃헙에 소스 검색을 해보시면 누가 만든게 나오지 않을까 싶네요.
특히 다른 카페에서는 잘 되는데 현재 돌리고 있는 카페에서만 발생하는 문제라서 짐작도 잘 안갑니다.
POST 방식으로 접근이 가능한지도 한 번 찾아봐야겠네요.
댓글 감사합니다.
2번항목 참고하세요!
그때 고생했던것중 하나가 "그냥 언제인지 모르게 다음 게시물의 http 페이지를 불러오지 못하는 경우" 였습니다.
Webdriver에서 headless 옵션을 끄고 브라우저로 띄워서 살펴보았는데
간혹 다음 게시물 주소로 이동할때 마다 페이지를 불러오지 못하고 흰색화면에서 멈춰있는 경우가 있더라구요.
저희는 while try catch 로 해당 페이지가 불러져왔는지 presence_of_element_located로 확인하고 반복해서 불러올때까지 시도하는 방식을 사용했었습니다.
그 후에 남품하고 고객사에서 크롤링만 하루 12시간 넘게 연속으로 돌리는데 문제가 없이 진행되었던 적이 있습니다.
그런데 특정 카페 하나에서만 그러시다고 하니.. 좀 아리까리 하긴 하네용...^^;
윗 댓글에 비공식 api가 있다고 하시는데 미리 알았더라면 저도 고생좀 덜했을텐데 아쉽네요...ㅜ