我正在使用 Scrapy 框架让蜘蛛爬过一些网页。基本上,我想要的是抓取网页并将它们保存到数据库中。我每个网页有一个蜘蛛。但是我无法立即运行这些蜘蛛,以至于蜘蛛在另一只蜘蛛完成爬行之后开始爬行。怎样才能做到这一点?scrapyd 是解决方案吗?
问问题
515 次
scrapyd 确实是一个好方法,max_proc或max_proc_per_cpu配置可用于限制并行 spdiers 的数量,然后您将使用 scrapyd rest api调度蜘蛛,如:
$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider