分布式爬虫为什么一次只能爬一条

分布式爬虫原理

发布 : Python培训   发布时间:2023-05-26 17:57:33

品牌型号:联想小新Pro16/系统版本:windows10

分布式爬虫一次只能爬一条可能是因为源代码中设置成了一次输出一条。

分布式爬虫是指在多个计算机上部署爬虫程序,共享队列,去重,让多个爬虫不爬取其他爬虫爬取过的内容,从而实现实现联合采集,是一种提高爬取效率的方法。

分布式爬虫的原理为:Spiders每个爬虫的调度器都从队列中取出请求和存入请求。生成的请求经由Scheduler调度器发送给Downloader下载器。下载器下载所需要的网络数据,再用Scheduler从队列里取出请求。而scrapy-redis是建立一个redis队列,实现多个爬虫,多台机器同时爬取的目标。

其它答案
冰阔落 2020-06-22 18:56:36

常见的分布式爬虫架构有:XXL-CRAWLER、Redis、RabbitMQ、Scrapy、Beautiful Soup(bs4)、selenium、Portia、cola、PySpider、Celery。