0

使用scrapy's CrawlSpider,是否有一种规范的方式来获取规则遵循的页面的url 。例如,如果我在回调方法中解析页面B 时有一个从页面 A页面 B的链接,有没有办法知道页面 A的 url ?我对内置功能更感兴趣,而不是扩展类。CrawlSPider

4

1 回答 1

0

在您的回调中,您可以在响应的请求标头中使用“Referer”标头

    def mycallback(self, response):
        print "Referer:", response.request.headers.get("Referer")
        ...

它应该适用于所有蜘蛛。

于 2013-07-21T21:19:15.287 回答