我正在使用 scrapy 库来帮助抓取网站。
该网站使用身份验证,我可以使用scrapy成功登录该页面。
该页面有一个 URL,它将注销用户并销毁会话。
如何确保scrapy在爬取时避免登出页面?
如果您正在使用链接提取器并且不想遵循此特定的“注销”链接,则可以设置deny
属性:
rules = [Rule(SgmlLinkExtractor(deny=[r'logout/']), follow=True),]
另一种选择是检查response.url
蜘蛛parse
方法内部:
def parse(self, response):
if 'logout' in response.url:
return
# extract items
希望有帮助。