我正在使用scrapyd 在同一域中运行多个蜘蛛作为作业。我假设scrapy有一个访问过的url的哈希表,它在爬行时与其他蜘蛛共享和协调。当我创建同一个蜘蛛的实例时
curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.
它会爬取相同的 url,并且正在抓取重复的数据。以前有人处理过类似的问题吗?
我正在使用scrapyd 在同一域中运行多个蜘蛛作为作业。我假设scrapy有一个访问过的url的哈希表,它在爬行时与其他蜘蛛共享和协调。当我创建同一个蜘蛛的实例时
curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.
它会爬取相同的 url,并且正在抓取重复的数据。以前有人处理过类似的问题吗?
我的建议是尝试将网站分成多个start_urls
. 然后,您可以将不同的值传递start_urls
给每个 spider。
如果您想变得特别花哨,(或者如果您要抓取的页面定期更改),您可以创建一个抓取站点地图的蜘蛛,将链接分成n
小块,然后启动n
其他蜘蛛来实际抓取该站点。 ..