티스토리 뷰

728x90

1. 개요

 파이썬으로 네이버 검색어 순위를 파싱해 봅니다.



2. 소스코드

  개발자 도구 열어 페이지의 소스코드를 확인합니다. 



소스 코드를 보면 idrealrank인 <ol> 테그 안에 들어있는 것을 알 수 있습니다. 그리고 <ol> 테그 안에는 각각 <li>테그에 검색어 들이 들어 있습니다.


여기까지 html 코드를 가져오는 python 소스코드입니다.


find함수는 가장 먼저 나오는 것을 리턴하며 findAll은 조건에 적합한 모든 것을 리스트로 저장합니다. 위의 rank_list_li를 출력한 값은 다음과 같습니다.


위 데이터에서 실제로 필요한 값은 a 테그에 들어있는 title 값입니다.

따라서 데이터를 가져와 필요한 부분만 잘라냅니다.


title[title.find('title="')+7:title.find('">')]

위 코드에서 +7을 해주는데 +7의 title=" 뒤부터 가져오게 하기 위해서 입니다.



3. 결과

  최종 코드와 결과입니다.



댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/04   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
글 보관함