전체 글 54

[크롤링] selenium 안녕 ,,?

selenium 을 깔아보자! 먼저 크롬 드라이브를 깔아야 한다. 크롬 드라이브는 본인의 크롬 버전과 같은 버전으로 다운로드 해야 하는데, 크롬에 chrome://version/ 을 입력하면 본인의 크롬 버전이 나온다. 이런 것도 있었고만 https://sites.google.com/chromium.org/driver/ ChromeDriver - WebDriver for Chrome WebDriver is an open source tool for automated testing of webapps across many browsers. It provides capabilities for navigating to web pages, user input, JavaScript execution, and mo..

cs/크롤링 2023.03.20

[크롤링] 네이버 홈화면의 메뉴를 가져와보자

! 새롭게 알게 된 점 ! 보통 이런 형식으로 웹의 트리가 쌓여있다는 점 책에서 이런 것도 안알려주구 ㅠ - 네이버 홈화면의 메뉴를 가져와보자 여기서 초록색 부분! 네이버의 웹소스는 이렇게 구성되어 있다. 'ul' 에서 각 'li' 들에 메뉴 이름이 쓰여있었다. 우선 'ul'에서 'li' 소스 들을 뽑아 그 안에서 a 태그들의 text 를 뽑아주도록 하겠다. from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('https://www.naver.com') bs = BeautifulSoup(html, 'html.parser') ul = bs.find('ul',{'class' : 'list_nav'}) #print(ul..

cs/크롤링 2023.03.13

[크롤링] 할리스 매장 위치 정보 크롤링 해보기 (pandas / del[:])

할리스의 매장 정보를 크롤링하여 워드에 작성해보자! https://www.hollys.co.kr/store/korea/korStore2.do 할리스 HOLLYS www.hollys.co.kr 할리스의 매장찾기 페이지 소스를 살펴보니 위와 같은 코드로 정리하고 있었다. tr 로 매장을 나누어 그 안에 지역, 매장명, 현황, 주소, 매장 서비스, 전화번호로 나누어 코드를 작성하였다. 실제로 청주율량현대점과 연세대학교원주장례식장점처럼 실제로 나누고 있었다. from urllib.request import urlopen from bs4 import BeautifulSoup import pandas as pd import datetime def hollys(result): html = urlopen('https:..

cs/크롤링 2023.03.08

[크롤링] 크롤링 시작하기 (페이지에 있는 링크 목록 가져오기/attrs/웹사이트를 무작위로 이동/딥 웹, 다크 웹, 히든 웹/웹스크레이핑/외부Url,내부 Url)

[파이썬으로 웹 크롤러 만들기 - 라이언 미첼, 한빛미디어] 의 내용을 바탕으로 공부한 내용입니다. 작성한 글의 모든 저작권은 한빛미디어에 있습니다. part1. 크롤링 시작하기 - chapter 3 - 페이지에 들어있는 링크 목록을 가져오기 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('https://en.wikipedia.org/wiki/Kevin_Bacon') bs = BeautifulSoup(html, 'html.parser') for link in bs.findAll('a'): if 'href' in link.attrs: print(link.attrs['href']) html = urlopen('h..

cs/크롤링 2023.03.06

[1/31~2/9] 행복했던 뉴욕 여행

여름에 다녀온 싱가포르 여행도 업로드를 못하였는데 이렇게 뉴욕 여행으로 찾아왔다. 사실 이번 여행을 통해 정말 느낀 게 많아서 하루하루 사진과 함께 정리하는 기록보단 그냥 내가 느낀 점을 가득 써놓는 기록이 나을 것 같다. 사실 하나라도 사라지기 전에 얼른 잔뜩 기록하고 싶다. 우선 여행은 굉장히 재미있었다. 뉴욕을 여행하기엔 턱없이 짧은 기간이지만 나름 24살이 되고 나서는 여행(?) 이다보니 생각 정리도 많이 하고 내 미래에 대해 견문을 넓힐 수 있었던 좋은 기회였던 것 같다. 개인적으로 나는 쉬러 간 여행이었지만 평균 이만보를 걷는 여행을 지향하는 내 친구 고은이 덕분에 마냥 쉬기보단 여기저기 관광객처럼 많이 다닐 수 있었던 여행이었다. 나중엔 고은이가 먼저 지치긴 했지만 ㅎㅋ 그럼 시작해보자! 1..

youth/just youth 2023.03.01

[크롤링] 고급 HTML 분석 (findAll/get_text()/트리이동/정규표현식/람다표현식)

[파이썬으로 웹 크롤러 만들기 - 라이언 미첼, 한빛미디어] 의 내용을 바탕으로 공부한 내용입니다. 작성한 글의 모든 저작권은 한빛미디어에 있습니다. part1. 스크레이퍼제작 - chapter 1~2 저자가 제시하는 페이지를 통해 초록색 글씨만 추출해보자! from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen('https://www.pythonscraping.com/pages/warandpeace.html') bs = BeautifulSoup(html, 'html.parser') nameList = bs.findAll('span',{'class': 'green'}) for name in nameList: print..

cs/크롤링 2023.02.28

하늬가람 활동 연혁

# 2021.10 ~ 2023.03 2021.10.12 서강대 홈페이지에서 하늬가람 합격 확인 2021.11.05-2021.11.07 하늬가람 1차 교육 - 실적, 규약, 실외 캠퍼스투어 등의 하늬가람 활동과 관련된 교육과 서강대 건물, 학과 등 서강대학교 전반에 관한 교육 2022.01.03 하늬가람 2차 교육 - 실내 캠퍼스투어 교육 2022.01.21-2022.01.22 고등학생 대상 온라인 멘토링 진행 - 공과대학중 컴퓨터공학과, 화공생명공학과를 담당하여 멘토링을 진행 2022.03.11 개강맞이 대학생 심리테스트 업로드 - 코로나 상황에서 비대면으로 개강한 학생들을 위하여 온라인 상에서 진행할 수 있는 행사를 고안 - MBTI 로 인해 다른 심리테스트까지 인기를 끌고 있는 상황에서 서강대의 마스..

youth/하늬가람 2022.11.15

[크롤링] 윤석열, 신지원 대단하다고 극찬해,,,

태그 내용 태그는 속성명과 속성값이 있을 수 있다. 내용 속성명, 속성값은 태그에 이름을 붙여주는 역할을 한다 div 구역 나누기 => 본문을 위한 구역, 댓글을 위한 구역, 광고를 위한 구역 등으로 Div 통해 나누어 준다. a 링크 => 제목을 클릭하면 그 기사로 이동하는데, 이때 사용 h1 제목 => 보통 중요한 태그를 담음 p 문단 ul,li 목록 => list 형태의 데이터 사용할 때 이용 ex) 네이버 해킹해보자! mac 은 control+F12 를 눌러야 html 을 볼 수 있다. 새로 뜬 창 맨 왼쪽 화살표 표시를 누른 뒤 네이버 기사 창을 클릭하면 해당 html 주소가 뜬다. 그래서 이 것의 제목을 바꿔보기로 했다. 애플에 관련된 기사를 신지원 대단해로 바꿔주었다. 그랬더니 ㅋㅋㅋㅋㅋㅋㅋ..

cs/크롤링 2022.09.26