파이썬 html 정보 가져오기 크롤링(Web Crawling)

2022. 6. 2. 15:34

웹 정보를 정적으로 간단하게 BeautifulSoup를 통해 정보를 긁어 올 수 있다.

yes24의 홈페이지에서 베스트셀러 1~10위를 가져오는 방식으로 예를 보여 드리겠습니다.

YES24

YES24는 대한민국 1위 인터넷 온라인서점입니다. 국내 최대의 도서정보를 보유하고 있으며 음반, DVD, 공연까지 다양한 문화콘텐츠 및 서비스를 제공합니다.

www.yes24.com

우측 빨간 상자안에 순위와 제목을 가져오도록 하겠습니다.

requests로 원하는 웹의 소스코드를 받아온다.

res.text를 출력해보면 잘 넘어온 걸 볼 수 있다.

만약 Response가 304로 넘어올 경우

웹에서 관리자 모드를 통해 베스트셀러 부분 소스 트리를 볼 수 있다.

soup.select를 통해 li태그에. tp02 클래스를 긁어 오면 li 태그 안에 strong 태그 부분에

순위와 제목이 포함되어 있는 걸 알 수 있다.

len을 통해 li. tp02 태그의 개수를 확인하니 10개가 맞다.

select를 통해 순위, 제목을 긁어오고 있다.

book리스트 안에 리스트로 순위와 책을 저장하고 잘 들어갔는지 출력을 찍어 보니 잘된다.

pandas를 이용해 데이터 프레임으로 깔끔하게 출력할 수 있다.

마지막으로 데이터를 csv파일 및 엑셀로 뽑아낼 수도 있다.

판다스(Pandas) - 기본 개념 (0)	2022.06.28
Numpy(넘파이) 속성 및 함수 훑어보기 (0)	2022.06.20
웹 크롤링(Web Crawling) 에러 , 304 에러 (0)	2022.06.01
파이썬[python] 큰따옴표(쌍따옴표) , 따옴표 활용 및 출력 (0)	2022.03.22
파이썬[Python] 아나콘다 설치하기 (0)	2022.03.18

국산곰탱이