1

我搜索从两个 start_urls xxx.com/LISTA 和 xxx/com/LISTB 中找到的 url - xxx.com/a、xxx.com/b 等

一旦这个爬虫完成后,我还想另外爬取页面 xxx.com/x_in_database 和 xxx.com/y_in_database - 它们的 URL 已经在数据库中的先前爬取中被爬取过(因此现在可用),但前提是当前爬虫没有已经在 LISTA 和 LISTB 中找到它们

最好的方法是什么?似乎我无法开始新的爬网,scrapy.signals.spider_closed(spider, reason)只能执行其他常规操作,如关闭连接、释放资源等

4

0 回答 0