import requests
from bs4 import BeautifulSoup
def fSearch(pUrl):
res = requests.get(pUrl)
bs = BeautifulSoup(res.content, "html.parser")
bss = bs.decode("utf-8")
tab1 = bs.select("span.ah_k")
print(tab1)
if __name__ == "__main__":
url = "https://www.naver.com"
fSearch(url)
이렇게 했는데 print(tab1) 찍었을떄 아무것도 안나오는데 잘못 찍은건가요?
예제랑 똑같이 작성한거 같은데 DIV이 여러개 있으면 안되는건가요?
www.naver.com 의 html 소스에는 ah_k 라는 요소가 없는걸로 보여요
왜 안보이는지 Beautifulsoup에서 다 못잡아오는지 조회가 안됩니다. ㅜㅜ
User Agent 부분을 동일하게 맞처서 테스트 해보세요
네이버에서 크롤링 때문에 막아논거 같아요
브라우저에선 잘 보이는 사이트들도 beautifulsoup으로 보면 죄송합니다
아쩌고 라고 뜨는 경우가 있어요
제가 해본 봐로는 네이버 검색어 페이지 자체가 그렇게 나오더라구요
일부러 막아논거 같은데 포털 사이트를 제외한 다른 사이트들은
잘 되는가 같습니다
감사합니다
본 강좌의 목적은 특정 실제 사이트를 크롤링하는 것이 아니라, 파이썬 입문과 크롤링 기본 기술을 익히며, 파이썬과 데이터 수집 기술, 그리고 추가로 업무 자동화 기술도 익히시는 것이라서요. 입문자분들도 익힐 수 있는 부분에 집중한 것인데요.
네이버 사이트의 실시간 검색어 크롤링이 너무 많다보니, 네이버측에서 굉장히 크롤링을 어렵게 해놓은 것으로 보입니다. 그래서, 본래 쉬운 크롤링 예제로 낮은 난이도를 가지고 있었는데, 최상급 난이도로 올라간 상황입니다. 이 부분 이해 부탁드리며, 해당 크롤링은 크롤링 기술중 중급 이상의 기술인 selenium 기술과 bs4 기술을 혼합해서 사용해야만 해당 크롤링 연습을 해볼 수 있고 심지어 이를 위해서는 별도 프로그램을 PC에 설치해야만 해서, 참고로만 부탁드립니다.
해당 기술에 대해서는 PC에 관련 프로그램 설치 및 활용에 대해, 부득이 별도 크롤링 중급 강좌인 '현존 최강 크롤링 기술: Scrapy와 Selenium 정복'에서 설명해놓았습니다. 다음 코드는 해당 강좌를 다 수강한 후에야, 비로소 연습이 가능함을 부득이 이해를 부탁드립니다. 감사합니다."
제가 인프런에서 수업듣고 있는 강의에서 강사님이 이런 공지를 한달전에 내셨는데, 혹시 이거랑 관련이 있을지도...
이 사이트를 BeautifulSoup으로 가져오면 죄송하다는 메세지가 나옵니다. ㅋㅋ