发布 : web前端培训 发布时间:2023-05-24 17:37:45
常见的分布式爬虫架构有:
1、XXL-CRAWLER
分布式爬虫框架。拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性。
2、Redis
scrapy-Redis是比较成熟的框架,打造自己的分布式系统。
3、RabbitMQ
消息中间件,得益于它的确认机制,当一条消息消费后如果设置确定模式,那么确认后才会继续消费。
4、Scrapy
提取结构性数据而编写的应用框架Scrapy。 主要应用在数据挖掘,信息处理、存储历史数据等程序。
5、Beautiful Soup(bs4)
可以从html或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档。
6、selenium
自动化测试工具Selenium,它支持各种浏览器,包括 Chrome,Safari,Firefox等主流浏览器。
7、Portia
可视化爬虫工具Portia,基于scrapy内核,可视化爬取内容。
8、cola
分布式的爬虫框架cola,任务会自动分配到多台机器上。
9、PySpider
pyspider 是由国人 binux 编写的强大的网络爬虫系统,它支持多种数据库后端、多种消息队列、JavaScript 渲染页面的爬取,使用起来很方便。
10、Celery
celery典型的分布式任务队列,常用于异步操作中。
XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫,拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性。
咨询还可获得
对应免费课程