웹크롤러(설명)

less than 1 minute read

웹크롤러란

웹크롤러는 조직적, 자동화된 방법으로 WordWideWeb을 탐색하는 컴퓨터 프로그램이다.

웹크롤러가 하는 작업을 웹크롤링이라하고 여러 사이트에서는 데이터의 최신화를 위해 웹 크롤링을 사용한다.

웹크롤링의 원리

  1. 프로그램언어로 Selenium에게 사용자가 정한 웹 페이지를 크롤링하라고 명령한다.

  2. 명령을 받은 Selenium은 Web Driver를 실행하여 웹페이지에 접속한다.

  3. 접속한 웹 페이지에서 HTML 소스 형태를 크롤링 하고 있는 컴퓨터로 가져온다.

  4. 수집한 HTML코드에서 Beautiful Soup를 사용하여 원하는 부분만 가져온다.

  5. 정제한 데이터를 원하는 형식의 파일로 저장한다.

웹 크롤링을 위한 준비사항

  1. pip install selenium 으로 selenium 설치

  2. https://sites.google.com/a/chromium.org/chromedriver/downloads에서 웹 드라이버 설치

  3. pip install bs4 으로 Beautiful Soup 설치

Leave a comment