티스토리 뷰
Programming/Framework & Libraries
[scraping] scraping 및 crawling 라이브러리 비교 (with Python)
progrunman 2022. 4. 4. 15:33Requests
- http 통신 지원 모듈
BeautifulSoup
- HTML, XML로부터 특정 데이터를 접근하기 위해 HTML 태그들의 구성을 트리 형태로 만들고 접근 가능하게 해주는 라이브러리
- 장점 : 파싱 및 크롤링 속도가 빠름
- 단점 : javascript와 같이 비동기 처리된 데이터들 처리에 에로사항이 꽃핌
Selenium
- Web App을 테스트할 때 주로 사용하는 프레임워크 (Web 동작 자동화 라이브러리)
- 장점 : Web Driver를 통해서 접근하기 때문에 동적 데이터(비동기 처리된 데이터)까지 모두 처리 가능
- 단점 : 실제 웹 브라우저와 같은 Web Driver를 사용하기 때문에, 필요없는 정보도 모두 처리되어 비교적 속도가 느리다
Scrapy
- 크롤링을 위해 개발된 프레임워크
newspaper4k
- 뉴스 크롤링에 특화된 라이브러리
- 장점 : 사용이 쉬움
- 단점 : 세세한 컨트롤이 안됨
즉,
- 간단하게 url로 결과가 모두 추출되는 경우 : beautifulsoup만 사용
- 브라우저 상에서 특정 동작 및 비동기 데이터를 추출되는 경우 : selenium 사용
- 많은 웹페이지로부터 정보를 수집(빅데이터) : scrapy 사용
'Programming > Framework & Libraries' 카테고리의 다른 글
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- Custom Package
- Python
- 유니티
- VS2022
- Scraping
- 싱글톤
- git
- initialize
- 코루틴
- Singleton
- 닷넷
- C#
- unity
- github
- selenium
- RuntimeInitializeOnLoadMethod
- .net
- gcp
- firestore
- async
- await
- Debug
- logging
- 비동기
- framework
- coroutine
- 환경설정
- Visual Studio Code
- vscode
- Addressables
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함