! 새롭게 알게 된 점 !
보통 이런 형식으로 웹의 트리가 쌓여있다는 점 책에서 이런 것도 안알려주구 ㅠ
<html>
<div>
<ul>
<li>
<a>
<span>
- 네이버 홈화면의 메뉴를 가져와보자
여기서 초록색 부분!
네이버의 웹소스는 이렇게 구성되어 있다. 'ul' 에서 각 'li' 들에 메뉴 이름이 쓰여있었다.
우선 'ul'에서 'li' 소스 들을 뽑아 그 안에서 a 태그들의 text 를 뽑아주도록 하겠다.
<완성 코드>
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen('https://www.naver.com')
bs = BeautifulSoup(html, 'html.parser')
ul = bs.find('ul',{'class' : 'list_nav'})
#print(ul)
lis = ul.findAll('li')
#print(lis)
for li in lis:
a_tag=li.find('a')
print(a_tag.text)
ul = bs.find('ul',{'class' : 'list_nav'})
#print(ul)
=> ul을 찾아주는 코드
lis = ul.findAll('li')
#print(lis)
=> ul 안에 li 들을 lis 안에 저장해주었다.
for li in lis:
a_tag=li.find('a')
print(a_tag.text)
=> lis 안 li 들을 하나 하나 뽑으며 a태그의 text 를 출력하였다.
<결과>
'cs > 크롤링' 카테고리의 다른 글
[크롤링] 하늬가람 페이지 크롤링해보자 (0) | 2023.03.20 |
---|---|
[크롤링] selenium 안녕 ,,? (0) | 2023.03.20 |
[크롤링] 할리스 매장 위치 정보 크롤링 해보기 (pandas / del[:]) (0) | 2023.03.08 |
[크롤링] 크롤링 시작하기 (페이지에 있는 링크 목록 가져오기/attrs/웹사이트를 무작위로 이동/딥 웹, 다크 웹, 히든 웹/웹스크레이핑/외부Url,내부 Url) (0) | 2023.03.06 |
[크롤링] 고급 HTML 분석 (findAll/get_text()/트리이동/정규표현식/람다표현식) (0) | 2023.02.28 |