1

我被困在需要抓取具有表单帖子的网站的地步。Nutch 不支持这一点。我该如何解决这个问题,以便我可以使用 Nutch 抓取这些网站?有更好的解决方案吗?

4

2 回答 2

1

这是你们正在寻找的答案:

http://lifelongprogrammer.blogspot.com/2014/02/part1-using-apache-http-client-to-do-http-post-form-authentication.html

https://issues.apache.org/jira/browse/NUTCH-827

这两个链接有完整和示例代码。如果您正确执行每个步骤,那么您将能够在 Nutch 中实现基于表单的身份验证。

于 2014-05-01T19:32:34.633 回答
1
  1. 使用数据制作文件:需要 auth / URL 以提交表单/表单数据的 URL 的正则表达式
  2. 制作自己的http协议插件修改标准协议-httpclient插件。如果发出 http 请求的 URL 需要 auth 并且还没有进行 auth,那么去表单并发送它。

这是最简单的解决方案。问题是,对于大量网站,没有一种简单的解决方案。cookie 过期/在登录期间使用 Javascript 等存在问题。通过 Nutch 的 JIRA 搜索,有很多关于此的讨论。

于 2012-07-15T12:36:14.890 回答