400-650-7353

精品课程

分布式爬虫需要用多台主机吗 Python基础分布式爬虫需要用多台主机吗

发布: Python培训 发布时间:2023-05-26 17:55:27

推荐答案
品牌型号:联想小新Pro16/系统版本:windows10

需要,分布式爬虫需要用多台主机。

分布式爬虫是指在多个计算机上部署爬虫程序,共享队列,去重,让多个爬虫不爬取其他爬虫爬取过的内容,从而实现实现联合采集,是一种提高爬取效率的方法。相对应的就是单机爬虫,单机爬虫是指只在一台服务器上部署爬虫程序,单机爬虫是使用本地电脑发出http请求,是一种反爬策略,可以突破ip限制。

分布式怕成的原理为:Spiders每个爬虫的调度器都从队列中取出请求和存入请求。生成的请求经由Scheduler调度器发送给Downloader下载器。下载器下载所需要的网络数据,再用Scheduler从队列里取出请求。而scrapy-redis是建立一个redis队列,实现多个爬虫,多台机器同时爬取的目标。

其它答案
冰阔落 2020-06-22 18:56:36

一台主机可以保证30个左右的从机的URL供应,所以分布式爬虫只需要一台计算机作为主机就够用了。

中公旗下IT培训品牌

  • 中公教育品牌

     中公教育是一家中国领先的全品类职业教育机构,提供超过100个品类的综合职业就业培训服务。公司在全国超过1000个直营网点展开经营,深度覆盖300多个地级市,并正在快速向数千个县城和高校扩张。

  • 完善就业体系

    通过阶段性授课机制,和每阶段的定期考核,先让学员能够学会所学内容,才能找打合适工作。最后一个阶段为就业课程,从技术和面试两个方面加深就业能力,并且还有不定期的双选会供大家选择。

  • 全程面授+实战技术

    线下课程全程是师资面对面教学,不会存在上课只对着大屏幕上课的情况,有问题都可以在课上得到解答。并且优就业通过自主研发大纲和学习路线,并且定期更新课程所学技术,让大家所学技术不落伍。

中公优就业专业职业规划老师

为您详细答疑解惑,更能领取免费课程

相关问题

更多课程

专业课程老师将第一时间为您解答

立即答疑
修改
优就业:ujiuye

关注中公优就业官方微信

  • 关注微信回复关键词“大礼包”,领80G学习资料