python - CrawlSpider 抓取时获取源链接

Question

使用scrapy's CrawlSpider，是否有一种规范的方式来获取规则遵循的页面的url 。例如，如果我在回调方法中解析页面B 时有一个从页面 A到页面 B的链接，有没有办法知道页面 A的 url ？我对内置功能更感兴趣，而不是扩展类。CrawlSPider

score 0 · Accepted Answer

在您的回调中，您可以在响应的请求标头中使用“Referer”标头

    def mycallback(self, response):
        print "Referer:", response.request.headers.get("Referer")
        ...

它应该适用于所有蜘蛛。

1 回答 1