0

我正在使用scrapyd 在同一域中运行多个蜘蛛作为作业。我假设scrapy有一个访问过的url的哈希表,它在爬行时与其他蜘蛛共享和协调。当我创建同一个蜘蛛的实例时

curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.

它会爬取相同的 url,并且正在抓取重复的数据。以前有人处理过类似的问题吗?

4

1 回答 1

1

我的建议是尝试将网站分成多个start_urls. 然后,您可以将不同的值传递start_urls给每个 spider

如果您想变得特别花哨,(或者如果您要抓取的页面定期更改),您可以创建一个抓取站点地图的蜘蛛,将链接分成n小块,然后启动n其他蜘蛛来实际抓取该站点。 ..

于 2014-04-14T15:10:25.367 回答