2

令 Nutch 能够抓取需要身份验证的网站部分的支持或信息如此之少,我感到很惊讶。

我知道也许 Apache Nutch 目前无法(但显然希望)支持 Http POST 身份验证。

然而,我们真正想做的只是能够在我们的 Nutch bot 标头中添加一个 cookie,这将允许它以这种方式访问​​网站的这些部分(而不是在表单中发布用户名和密码然后接收 cookie) .

所以我花了很多时间搜索并且惊讶地发现大多数关于这个的讨论都可以追溯到 2005 年或 2008 年:这里那里无处不在

这么多年过去了,是否有办法解决这个限制,或者仍然无法通过给 Nutch 一个“预烘焙”cookie 来进行身份验证,以便它只能访问我们网站的部分成员?

4

1 回答 1

3

我已将自定义代码添加到 nutch 协议 httpclient 插件以解决该问题。

在下面的链接中分享了更改

http://www.gingercart.com/Home/search-and-crawl/nutch-custom-authentication-cookies-session-management-to-crawl-secure-enterprise-websites

于 2014-02-11T23:42:48.970 回答