python - Scrapy - 当爬虫完成时调用一个新的爬取进程

翻译自：https://stackoverflow.com/questions/35591334 2016-02-24T00:59:25.910

348 次

我搜索从两个 start_urls xxx.com/LISTA 和 xxx/com/LISTB 中找到的 url - xxx.com/a、xxx.com/b 等

一旦这个爬虫完成后，我还想另外爬取页面 xxx.com/x_in_database 和 xxx.com/y_in_database - 它们的 URL 已经在数据库中的先前爬取中被爬取过（因此现在可用），但前提是当前爬虫没有已经在 LISTA 和 LISTB 中找到它们

最好的方法是什么？似乎我无法开始新的爬网，scrapy.signals.spider_closed(spider, reason)只能执行其他常规操作，如关闭连接、释放资源等

0 回答 0