[scraping] scraping 및 crawling 라이브러리 비교 (with Python)

본문 바로가기 메뉴 바로가기

티스토리 뷰

Programming/Framework & Libraries

[scraping] scraping 및 crawling 라이브러리 비교 (with Python)

progrunman 2022. 4. 4. 15:33

Requests

http 통신 지원 모듈

BeautifulSoup

HTML, XML로부터 특정 데이터를 접근하기 위해 HTML 태그들의 구성을 트리 형태로 만들고 접근 가능하게 해주는 라이브러리
장점 : 파싱 및 크롤링 속도가 빠름
단점 : javascript와 같이 비동기 처리된 데이터들 처리에 에로사항이 꽃핌

Selenium

Web App을 테스트할 때 주로 사용하는 프레임워크 (Web 동작 자동화 라이브러리)
장점 : Web Driver를 통해서 접근하기 때문에 동적 데이터(비동기 처리된 데이터)까지 모두 처리 가능
단점 : 실제 웹 브라우저와 같은 Web Driver를 사용하기 때문에, 필요없는 정보도 모두 처리되어 비교적 속도가 느리다

Scrapy

크롤링을 위해 개발된 프레임워크

newspaper4k

뉴스 크롤링에 특화된 라이브러리
장점 : 사용이 쉬움
단점 : 세세한 컨트롤이 안됨

즉,

- 간단하게 url로 결과가 모두 추출되는 경우 : beautifulsoup만 사용

- 브라우저 상에서 특정 동작 및 비동기 데이터를 추출되는 경우 : selenium 사용

- 많은 웹페이지로부터 정보를 수집(빅데이터) : scrapy 사용

저작자표시 비영리 변경금지 (새창열림)

'Programming > Framework & Libraries' 카테고리의 다른 글

[Selenium] selenium 디버깅시 "Failed to read descriptor from node connection: 시스템에 부착된 장치가 작동하지 않습니다."라는 에러로그가 찍히는 문제 (with Python) (0)	2022.04.17
[Selenium] Selenium으로 scraping할때 time.sleep이 아닌 WebDriverWait를 사용해서 효율적으로 처리하는 방법 (with Python) (0)	2022.01.18

댓글

공지사항

Hello Programmer!

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

글 보관함

티스토리툴바