我被困在需要抓取具有表单帖子的网站的地步。Nutch 不支持这一点。我该如何解决这个问题,以便我可以使用 Nutch 抓取这些网站?有更好的解决方案吗?
问问题
1606 次
2 回答
1
这是你们正在寻找的答案:
和
https://issues.apache.org/jira/browse/NUTCH-827
这两个链接有完整和示例代码。如果您正确执行每个步骤,那么您将能够在 Nutch 中实现基于表单的身份验证。
于 2014-05-01T19:32:34.633 回答
1
- 使用数据制作文件:需要 auth / URL 以提交表单/表单数据的 URL 的正则表达式
- 制作自己的http协议插件修改标准协议-httpclient插件。如果发出 http 请求的 URL 需要 auth 并且还没有进行 auth,那么去表单并发送它。
这是最简单的解决方案。问题是,对于大量网站,没有一种简单的解决方案。cookie 过期/在登录期间使用 Javascript 等存在问题。通过 Nutch 的 JIRA 搜索,有很多关于此的讨论。
于 2012-07-15T12:36:14.890 回答