python - 在scrapy中的多个蜘蛛之间共享访问过的网址？

Question

我正在使用scrapyd 在同一域中运行多个蜘蛛作为作业。我假设scrapy有一个访问过的url的哈希表，它在爬行时与其他蜘蛛共享和协调。当我创建同一个蜘蛛的实例时

curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

它会爬取相同的 url，并且正在抓取重复的数据。以前有人处理过类似的问题吗？

score 1 · Accepted Answer

我的建议是尝试将网站分成多个start_urls. 然后，您可以将不同的值传递start_urls给每个 spider。

如果您想变得特别花哨，（或者如果您要抓取的页面定期更改），您可以创建一个抓取站点地图的蜘蛛，将链接分成n小块，然后启动n其他蜘蛛来实际抓取该站点。 ..

1 回答 1