python - 一个接一个地运行多个蜘蛛

问问题 2014-02-11T06:07:34.017

515 次

0

我正在使用 Scrapy 框架让蜘蛛爬过一些网页。基本上，我想要的是抓取网页并将它们保存到数据库中。我每个网页有一个蜘蛛。但是我无法立即运行这些蜘蛛，以至于蜘蛛在另一只蜘蛛完成爬行之后开始爬行。怎样才能做到这一点？scrapyd 是解决方案吗？

1 回答 1

1

scrapyd 确实是一个好方法，max_proc或max_proc_per_cpu配置可用于限制并行 spdiers 的数量，然后您将使用 scrapyd rest api调度蜘蛛，如：

$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider

于 2014-02-11T06:17:28.413 回答