我在 scrapy 中使用 SgmlLinkExtractor 功能来解析特定的 url。
我重写了 start_requests 函数来抓取动态 url。
这看起来像:
start_requests(self): ..... yield Requests(url.strip(), callbackA)
回调 A 现在什么都不做。
我还为 SgmlLinkExtractor 实现了 process_value,但它从未调用过。
这是我正在使用的规则:
rules = [Rule(SgmlLinkExtractor(allow=()), callback=callbackB, follow=True),]
再次回调B 从未调用过。