cs/크롤링

[크롤링] 윤석열, 신지원 대단하다고 극찬해,,,

신_이나 2022. 9. 26. 22:14

태그
<태그명> 내용 </태그>
태그는 속성명과 속성값이 있을 수 있다.
<태그명 속성명 = "속성값"> 내용 </태그명>
속성명, 속성값은 태그에 이름을 붙여주는 역할을 한다

div 구역 나누기
=> 본문을 위한 구역, 댓글을 위한 구역, 광고를 위한 구역 등으로 Div 통해 나누어 준다.
a 링크
=> 제목을 클릭하면 그 기사로 이동하는데, 이때 사용
h1 제목
=> 보통 중요한 태그를 담음
p 문단
ul,li 목록
=> list 형태의 데이터 사용할 때 이용

<부모태그>
<자식태그></자식태그>

<자식태그></자식태그>

</부모태그>

ex)
<div class="news_info">
<a herf="주소1.com"></a>
<a herf="주소1.com"></a>
</div>






네이버 해킹해보자!


mac 은 control+F12 를 눌러야 html 을 볼 수 있다. 새로 뜬 창 맨 왼쪽 화살표 표시를 누른 뒤 네이버 기사 창을 클릭하면 해당 html 주소가 뜬다. 그래서 이 것의 제목을 바꿔보기로 했다.


애플에 관련된 기사를 신지원 대단해로 바꿔주었다. 그랬더니


ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ우왕 ㅋㅋㅋㅋㅋ

재밌다. ㅋㅋ




requests
HTTP 통신을 위한 파이썬 라이브러리
라이브러리
프로그램 개발을 쉽게 하기 위한 도구
HTTP 통신
1. get 요청 ex. 뉴스 1페이지를 보여달라고 서버에 요청
2. POST 요청 ex. 비밀번호, 아이디 등 정보를 서버에 요청

requests 설치
내부라이브러리 = 이미 설치된 것
외부라이브러리 = 새로 사와야 하는 것






이제 제대로 시작하려고 하는데 이거 pip 을 도대체 어떻게 까는 것일까,,?


수도 뭐시기까지 왔는데 이것도 에러뜬다,,
우선 컴실 보고서 쓰고 와서 next step,,,,,


--------------------------------------------------------------------------------------------------------------


해결했다. pip 이 있고 pip3 가 있는데
pip = python 2.xx 버전
pip3 = python 3.xx 버전
이라고 생각하면 된다.

사실 예쁘게 정리해 주고 싶은데 나도 이것저것 해보다가 된거라서 우선은 대충 설명을 적어보겠다.
우선 나는 맥을 사용한다.
터미널에 pip, pip3 을 쳤는데 아래와 같은 화면이 기일게 뜬다면 이미 pip이 깔려있는 것이다.


만약 깔려있지 않다면 어떻게 하면 될까?
먼저 homebrew 와 python 을 먼저 설치해야 한다.

$ brew update
$ python -v
$ brew install python3


을 통해서 버전을 확인해주고, 만약 2.xx 버전이라면 3.xx 버전으로 다시 설치해주는 것이 좋다.
마지막 명령어가 python3 을 설치해주는 명령어니 이미 설치되어 있다면 넘어가자.

$ curl http://bootstrap.pypa.io/get-pip.py -o get-pip.py


를 통해 get-pip.py 를 다운로드 한다.

$ sudo python get-pip.py
$ sudo easy_install pip


를 통해 pip 를 깔아주고 pip3 혹은 pip 를 통해 설치 여부를 판단해준다.
그리고 크롤링의 준비 과정으로 중요한 requests, beautifulsoup4 를 설치해주어야 한다.

$ pip3 install requests
$ pip3 install beautifulsoup4


난 구글링을 하다가 여기서 pip3 가 아닌 pip 를 입력해주어 애를 먹었는데, pip3 를 설치하고 pip install 명령어를 입력하는 바보같은 짓은 하지 말자 ㅎㅎ

이제부턴 vscode 와 연결시켜 제대로 크롤링을 해보자,, 드디어,,,