1

我正在使用 scrapy 库来帮助抓取网站。

该网站使用身份验证,我可以使用scrapy成功登录该页面。

该页面有一个 URL,它将注销用户并销毁会话。

如何确保scrapy在爬取时避免登出页面?

4

1 回答 1

0

如果您正在使用链接提取器并且不想遵循此特定的“注销”链接,则可以设置deny属性:

rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]

另一种选择是检查response.url蜘蛛parse方法内部:

def parse(self, response):
    if 'logout' in response.url:
        return

    # extract items

希望有帮助。

于 2013-07-11T05:11:01.680 回答