我正在尝试用python和twisted创建一个网络爬虫。发生了什么是在调用的时候
reactor.run()
我不知道要获取的所有链接。所以代码如下:
def crawl(url):
d = getPage(url)
d.addCallback(handlePage)
reactor.run()
并且句柄页面具有以下内容:
def handlePage(output):
urls = getAllUrls(output)
所以现在我需要在 urls 中的每个 url 上应用 crawl()。我该怎么做?我应该停止反应器并重新开始吗?如果我遗漏了一些明显的东西,请告诉我。