0

我要抓取的网站已通过第三方基本身份验证启用身份验证。例如,需要抓取的 url 是https://intranet.crawl.com url 首先被重定向到另一个页面:http://auth.intranet.com,允许基本身份验证,通过有效的用户名和密码它使用 cookie 登录到https://intranet.crawl.com

如何在风暴爬虫中实现上述身份验证?

4

1 回答 1

0

一种选择是使用 Selenium 并使用自定义 NavigationFilter 来填充重定向 URL 上的凭据,请参阅教程

您还可以在抓取之前在外部生成 cookie,并使用键 set-cookie在种子元数据中指定它。您需要将该密钥添加到您的 conf 中的metadata.transfer中,以便将其传输到外链并保存到存储中。

于 2018-03-09T14:43:30.900 回答