티스토리 뷰
Programming/Framework & Libraries
[scraping] scraping 및 crawling 라이브러리 비교 (with Python)
progrunman 2022. 4. 4. 15:33Requests
- http 통신 지원 모듈
BeautifulSoup
- HTML, XML로부터 특정 데이터를 접근하기 위해 HTML 태그들의 구성을 트리 형태로 만들고 접근 가능하게 해주는 라이브러리
- 장점 : 파싱 및 크롤링 속도가 빠름
- 단점 : javascript와 같이 비동기 처리된 데이터들 처리에 에로사항이 꽃핌
Selenium
- Web App을 테스트할 때 주로 사용하는 프레임워크 (Web 동작 자동화 라이브러리)
- 장점 : Web Driver를 통해서 접근하기 때문에 동적 데이터(비동기 처리된 데이터)까지 모두 처리 가능
- 단점 : 실제 웹 브라우저와 같은 Web Driver를 사용하기 때문에, 필요없는 정보도 모두 처리되어 비교적 속도가 느리다
Scrapy
- 크롤링을 위해 개발된 프레임워크
newspaper4k
- 뉴스 크롤링에 특화된 라이브러리
- 장점 : 사용이 쉬움
- 단점 : 세세한 컨트롤이 안됨
즉,
- 간단하게 url로 결과가 모두 추출되는 경우 : beautifulsoup만 사용
- 브라우저 상에서 특정 동작 및 비동기 데이터를 추출되는 경우 : selenium 사용
- 많은 웹페이지로부터 정보를 수집(빅데이터) : scrapy 사용
'Programming > Framework & Libraries' 카테고리의 다른 글
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- .net
- github
- RuntimeInitializeOnLoadMethod
- git
- 싱글톤
- VS2022
- 유니티
- Debug
- selenium
- 코루틴
- Addressables
- coroutine
- Scraping
- 닷넷
- Custom Package
- vscode
- framework
- initialize
- 환경설정
- Singleton
- await
- gcp
- C#
- 비동기
- Python
- Visual Studio Code
- unity
- async
- firestore
- logging
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함