0

有人可以告诉我 nutch 使用哪种协议来获取页面。我想看看 nutch 提出了什么样的要求?

我使用 charles 代理来查看请求信息,但遗憾的是那里没有获得任何信息。我是否错过了有关查尔斯代理或 nutch 的信息?

我也尝试过wireshark,但是有太多的数据包,我无法确定哪一个是nutch的?

请帮忙..

4

1 回答 1

0

Nutch 是一个网络爬虫,所以我猜它使用的是 HTTP 协议。很可能是HTTP GET来获取页面。

如果您需要更多信息(例如 nutch 的用户代理),请考虑在您的机器上设置一个 apache 网络服务器并抓取一些测试页面。然后看看apache访问日志。

于 2012-07-02T15:28:17.480 回答