반응형
웹 정보를 정적으로 간단하게 BeautifulSoup를 통해 정보를 긁어 올 수 있다.
yes24의 홈페이지에서 베스트셀러 1~10위를 가져오는 방식으로 예를 보여 드리겠습니다.
http://www.yes24.com/Main/default.aspx
우측 빨간 상자안에 순위와 제목을 가져오도록 하겠습니다.
requests로 원하는 웹의 소스코드를 받아온다.
res.text를 출력해보면 잘 넘어온 걸 볼 수 있다.
만약 Response가 304로 넘어올 경우
304 응답 코드 해결 참고하면 된다.
웹에서 관리자 모드를 통해 베스트셀러 부분 소스 트리를 볼 수 있다.
soup.select를 통해 li태그에. tp02 클래스를 긁어 오면 li 태그 안에 strong 태그 부분에
순위와 제목이 포함되어 있는 걸 알 수 있다.
len을 통해 li. tp02 태그의 개수를 확인하니 10개가 맞다.
select를 통해 순위, 제목을 긁어오고 있다.
book리스트 안에 리스트로 순위와 책을 저장하고 잘 들어갔는지 출력을 찍어 보니 잘된다.
pandas를 이용해 데이터 프레임으로 깔끔하게 출력할 수 있다.
마지막으로 데이터를 csv파일 및 엑셀로 뽑아낼 수도 있다.
반응형
'Computer Language > Python' 카테고리의 다른 글
판다스(Pandas) - 기본 개념 (0) | 2022.06.28 |
---|---|
Numpy(넘파이) 속성 및 함수 훑어보기 (0) | 2022.06.20 |
웹 크롤링(Web Crawling) 에러 , 304 에러 (0) | 2022.06.01 |
파이썬[python] 큰따옴표(쌍따옴표) , 따옴표 활용 및 출력 (0) | 2022.03.22 |
파이썬[Python] 아나콘다 설치하기 (0) | 2022.03.18 |