python - scrapy避免爬虫退出

Question

我正在使用 scrapy 库来帮助抓取网站。

该网站使用身份验证，我可以使用scrapy成功登录该页面。

该页面有一个 URL，它将注销用户并销毁会话。

如何确保scrapy在爬取时避免登出页面？

score 0 · Accepted Answer

如果您正在使用链接提取器并且不想遵循此特定的“注销”链接，则可以设置deny属性：

rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]

另一种选择是检查response.url蜘蛛parse方法内部：

def parse(self, response):
    if 'logout' in response.url:
        return

    # extract items

希望有帮助。

1 回答 1