티스토리 뷰

Requests

  • http 통신 지원 모듈

BeautifulSoup

  • HTML, XML로부터 특정 데이터를 접근하기 위해 HTML 태그들의 구성을 트리 형태로 만들고 접근 가능하게 해주는 라이브러리
  • 장점 : 파싱 및 크롤링 속도가 빠름
  • 단점 : javascript와 같이 비동기 처리된 데이터들 처리에 에로사항이 꽃핌

Selenium

  • Web App을 테스트할 때 주로 사용하는 프레임워크 (Web 동작 자동화 라이브러리)
  • 장점 : Web Driver를 통해서 접근하기 때문에 동적 데이터(비동기 처리된 데이터)까지 모두 처리 가능
  • 단점 : 실제 웹 브라우저와 같은 Web Driver를 사용하기 때문에, 필요없는 정보도 모두 처리되어 비교적 속도가 느리다

Scrapy

  • 크롤링을 위해 개발된 프레임워크

newspaper4k

  • 뉴스 크롤링에 특화된 라이브러리
  • 장점 : 사용이 쉬움
  • 단점 : 세세한 컨트롤이 안됨

 

즉,
- 간단하게 url로 결과가 모두 추출되는 경우 : beautifulsoup만 사용
- 브라우저 상에서 특정 동작 및 비동기 데이터를 추출되는 경우 : selenium 사용
- 많은 웹페이지로부터 정보를 수집(빅데이터) : scrapy 사용
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함