0

我正在使用 Scrapy 框架让蜘蛛爬过一些网页。基本上,我想要的是抓取网页并将它们保存到数据库中。我每个网页有一个蜘蛛。但是我无法立即运行这些蜘蛛,以至于蜘蛛在另一只蜘蛛完成爬行之后开始爬行。怎样才能做到这一点?scrapyd 是解决方案吗?

4

1 回答 1

1

scrapyd 确实是一个好方法,max_procmax_proc_per_cpu配置可用于限制并行 spdiers 的数量,然后您将使用 scrapyd rest api调度蜘蛛,如:

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider
于 2014-02-11T06:17:28.413 回答