常见的分布式爬虫架构有哪些

常见的分布式网络爬虫架构有什么

发布 : web前端培训发布时间:2023-05-24 17:37:45

品牌型号：联想小新Pro16/系统版本：windows10

常见的分布式爬虫架构有：

1、XXL-CRAWLER

分布式爬虫框架。拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性。

2、Redis

scrapy-Redis是比较成熟的框架，打造自己的分布式系统。

3、RabbitMQ

消息中间件，得益于它的确认机制，当一条消息消费后如果设置确定模式，那么确认后才会继续消费。

4、Scrapy

提取结构性数据而编写的应用框架Scrapy。主要应用在数据挖掘，信息处理、存储历史数据等程序。

5、Beautiful Soup(bs4)

可以从html或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档。

6、selenium

自动化测试工具Selenium，它支持各种浏览器，包括 Chrome，Safari，Firefox等主流浏览器。

7、Portia

可视化爬虫工具Portia，基于scrapy内核，可视化爬取内容。

8、cola

分布式的爬虫框架cola，任务会自动分配到多台机器上。

9、PySpider

pyspider 是由国人 binux 编写的强大的网络爬虫系统，它支持多种数据库后端、多种消息队列、JavaScript 渲染页面的爬取，使用起来很方便。

10、Celery

celery典型的分布式任务队列，常用于异步操作中。

冰阔落 2020-06-22 18:56:36

XXL-CRAWLER 是一个分布式爬虫框架。一行代码开发一个分布式爬虫，拥有"多线程、异步、IP动态代理、分布式、JS渲染"等特性。