반응형

 

웹 정보를 정적으로 간단하게 BeautifulSoup를 통해 정보를 긁어 올 수 있다.

 

yes24의 홈페이지에서 베스트셀러 1~10위를 가져오는 방식으로 예를 보여 드리겠습니다.

 

http://www.yes24.com/Main/default.aspx

 

YES24

YES24는 대한민국 1위 인터넷 온라인서점입니다. 국내 최대의 도서정보를 보유하고 있으며 음반, DVD, 공연까지 다양한 문화콘텐츠 및 서비스를 제공합니다.

www.yes24.com

 

 

 

 

우측 빨간 상자안에 순위와 제목을 가져오도록 하겠습니다.

 

 

응답코드가 정상적으로 넘어 온걸 알수있다,

 

 

requests로 원하는 웹의 소스코드를 받아온다.

res.text를 출력해보면 잘 넘어온 걸 볼 수 있다.

만약 Response가 304로 넘어올 경우

304 응답 코드 해결 참고하면 된다.

 

 

베스트 셀러 소스 트리

 

 

웹에서 관리자 모드를 통해 베스트셀러 부분 소스 트리를 볼 수 있다.

 

 

<strong>태그에 순위와 제목이 있다..

 

 

soup.select를 통해 li태그에. tp02 클래스를 긁어 오면 li 태그 안에 strong 태그 부분에

순위와 제목이 포함되어 있는 걸 알 수 있다.

 

 

 

len을 통해 li. tp02 태그의 개수를 확인하니 10개가 맞다.

select를 통해 순위, 제목을 긁어오고 있다.

 

 

 

 

book리스트 안에 리스트로 순위와 책을 저장하고 잘 들어갔는지 출력을 찍어 보니 잘된다.

 

 

 

pandas를 이용해 데이터 프레임으로 깔끔하게 출력할 수 있다.

 

 

마지막으로 데이터를 csv파일 및 엑셀로 뽑아낼 수도 있다.

반응형

+ Recent posts