我在一个项目中使用scrapy,我想抓取多个站点 - 可能是数百个 - 我必须为每个站点编写一个特定的蜘蛛。我可以在部署到scrapyd的项目中安排一个蜘蛛,使用:
curl http://localhost:6800/schedule.json -d project=myproject -d spider=spider2
但是我如何一次安排一个项目中的所有蜘蛛呢?
非常感谢所有帮助!
我在一个项目中使用scrapy,我想抓取多个站点 - 可能是数百个 - 我必须为每个站点编写一个特定的蜘蛛。我可以在部署到scrapyd的项目中安排一个蜘蛛,使用:
curl http://localhost:6800/schedule.json -d project=myproject -d spider=spider2
但是我如何一次安排一个项目中的所有蜘蛛呢?
非常感谢所有帮助!
我一次运行 200 多个蜘蛛的解决方案是为项目创建一个自定义命令。有关实现自定义命令的更多信息,请参阅http://doc.scrapy.org/en/latest/topics/commands.html#custom-project-commands。
YOURPROJECTNAME/commands/allcrawl.py:
from scrapy.command import ScrapyCommand
import urllib
import urllib2
from scrapy import log
class AllCrawlCommand(ScrapyCommand):
requires_project = True
default_settings = {'LOG_ENABLED': False}
def short_desc(self):
return "Schedule a run for all available spiders"
def run(self, args, opts):
url = 'http://localhost:6800/schedule.json'
for s in self.crawler.spiders.list():
values = {'project' : 'YOUR_PROJECT_NAME', 'spider' : s}
data = urllib.urlencode(values)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
log.msg(response)
确保在您的 settings.py 中包含以下内容
COMMANDS_MODULE = 'YOURPROJECTNAME.commands'
然后从命令行(在你的项目目录中)你可以简单地输入
scrapy allcrawl
对不起,我知道这是一个老话题,但我最近开始学习scrapy,在这里偶然发现,我还没有足够的代表发表评论,所以发布一个答案。
从常见的scrapy实践中你会看到,如果你需要一次运行多个spider,你必须启动多个scrapyd服务实例,然后在这些实例中分发你的Spider运行。