scrapy - 在scrapy的同一进程中运行多个蜘蛛后如何停止反应器？

Question

我有几个不同的蜘蛛，想一次运行它们。基于this和this，我可以在同一个进程中运行多个蜘蛛。但是，我不知道如何设计一个信号系统来在所有蜘蛛完成后停止反应堆。

我努力了：

crawler.signals.connect(reactor.stop, signal=signals.spider_closed)

和

crawler.signals.connect(reactor.stop, signal=signals.spider_idle)

在这两种情况下，反应堆都会在第一个爬虫关闭时停止。当然，我希望反应堆在所有蜘蛛完成后停止。

有人可以告诉我如何做到这一点吗？

score 7 · Accepted Answer

睡了一夜之后，我意识到我知道该怎么做。我只需要一个计数器：

from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log, signals
from scrapy.utils.project import get_project_settings

class ReactorControl:

    def __init__(self):
        self.crawlers_running = 0

    def add_crawler(self):
        self.crawlers_running += 1

    def remove_crawler(self):
        self.crawlers_running -= 1
        if self.crawlers_running == 0 :
            reactor.stop()

def setup_crawler(spider_name):
    crawler = Crawler(settings)
    crawler.configure()
    crawler.signals.connect(reactor_control.remove_crawler, signal=signals.spider_closed)
    spider = crawler.spiders.create(spider_name)
    crawler.crawl(spider)
    reactor_control.add_crawler()
    crawler.start()

reactor_control = ReactorControl()
log.start()
settings = get_project_settings()
crawler = Crawler(settings)

for spider_name in crawler.spiders.list():
    setup_crawler(spider_name)

reactor.run()

我假设 Scrapy 不是平行的。

我不知道这是否是最好的方法，但它有效！

编辑：更新。请参阅@Jean-Robert 评论。

scrapy - 在scrapy的同一进程中运行多个蜘蛛后如何停止反应器？

1 回答 1

Related

Reference