我创建了一个蜘蛛,并将一个方法链接到 spider_idle 事件。
如何手动添加请求?我不能只从 parse 中返回项目——在这种情况下 parse 没有运行,因为所有已知的 URL 都已被解析。我有一个生成新请求的方法,我想从 spider_idle 回调中运行它以添加创建的请求。
class FooSpider(BaseSpider):
name = 'foo'
def __init__(self):
dispatcher.connect(self.dont_close_me, signals.spider_idle)
def dont_close_me(self, spider):
if spider != self:
return
# The engine instance will allow me to schedule requests, but
# how do I get the engine object?
engine = unknown_get_engine()
engine.schedule(self.create_request())
# afterward, ensure we stay alive by raising DontCloseSpider
raise DontCloseSpider("..I prefer live spiders.")
更新: 我已经确定我可能需要该ExecutionEngine
对象,但我不完全知道如何从蜘蛛那里获取它,尽管它可以从一个Crawler
实例中获得。
更新2: ..谢谢。..crawler 作为超类的属性附加,所以我可以使用 self.crawler 而不需要额外的努力。>.>