python - 字符串中匹配词的 SgmlLinkExtractor 和正则表达式

Question

我在 scrapy 中使用 SgmlLinkExtractor 功能来解析特定的 url。

我重写了 start_requests 函数来抓取动态 url。

这看起来像：

start_requests(self): ..... yield Requests(url.strip(), callbackA)

回调 A 现在什么都不做。

我还为 SgmlLinkExtractor 实现了 process_value，但它从未调用过。

rules = [Rule(SgmlLinkExtractor(allow=()), callback=callbackB, follow=True),]

再次回调B 从未调用过。

score 0 · Accepted Answer

如果您的回调在您的蜘蛛中声明，那么它们将没有全局范围，您需要将它们引用为您的类的范围self.：

rules = [
  Rule(SgmlLinkExtractor(), callback=self.callbackB, follow=True),
]