웹크롤러(설명)
웹크롤러란
웹크롤러는 조직적, 자동화된 방법으로 WordWideWeb을 탐색하는 컴퓨터 프로그램이다.
웹크롤러가 하는 작업을 웹크롤링이라하고 여러 사이트에서는 데이터의 최신화를 위해 웹 크롤링을 사용한다.
웹크롤링의 원리
-
프로그램언어로 Selenium에게 사용자가 정한 웹 페이지를 크롤링하라고 명령한다.
-
명령을 받은 Selenium은 Web Driver를 실행하여 웹페이지에 접속한다.
-
접속한 웹 페이지에서 HTML 소스 형태를 크롤링 하고 있는 컴퓨터로 가져온다.
-
수집한 HTML코드에서 Beautiful Soup를 사용하여 원하는 부분만 가져온다.
-
정제한 데이터를 원하는 형식의 파일로 저장한다.
웹 크롤링을 위한 준비사항
-
pip install selenium 으로 selenium 설치
-
https://sites.google.com/a/chromium.org/chromedriver/downloads에서 웹 드라이버 설치
-
pip install bs4 으로 Beautiful Soup 설치
Leave a comment