1

我现在正在学习用 Nutch 抓取页面。但是有一个我无法解决的问题。我想通过本地代理服务器抓取页面,地址为 127.0.0.1:8087。并且服务器运行良好(我的 FireFox 可以很好地使用它)。在 Nutch-conf 文件 conf/nutch-site.xml 中,我添加了一些属性如下:

http.agent.host--> 127.0.0.1

http.proxy.port-->8087

我的本地服务器不需要任何身份验证。

Nutch 可以成功运行,但不通过代理请求。

谢谢。

4

2 回答 2

4

只需将这些属性添加到 nutch-site.xml (将 XXXX 替换为正确的值)

<property>
  <name>http.proxy.host</name>
  <value>XXXXXX</value>
  <description>The proxy hostname.  If empty, no proxy is used.</description>
</property>

<property>
  <name>http.proxy.port</name>
  <value>XXXXXXXX</value>
  <description>The proxy port.</description>
</property>

如果您需要身份验证:

<property>
  <name>http.proxy.username</name>
  <value></value>
  <description>Username for proxy. This will be used by
  'protocol-httpclient', if the proxy server requests basic, digest
  and/or NTLM authentication. To use this, 'protocol-httpclient' must
  be present in the value of 'plugin.includes' property.
  NOTE: For NTLM authentication, do not prefix the username with the
  domain, i.e. 'susam' is correct whereas 'DOMAIN\susam' is incorrect.
  </description>
</property>

<property>
  <name>http.proxy.password</name>
  <value></value>
  <description>Password for proxy. This will be used by
  'protocol-httpclient', if the proxy server requests basic, digest
  and/or NTLM authentication. To use this, 'protocol-httpclient' must
  be present in the value of 'plugin.includes' property.
  </description>
</property>
于 2013-10-25T12:43:09.040 回答
1

我遇到了一些类似的问题。不确定是否相同。我从终端为这些设置路径并运行 Nutch。它工作得很好。我没有在 Nutch 中进行任何其他附加设置。它适用于 Ubuntu,但不知何故它不适用于 mac。让我知道它是否有效。

    export http_proxy=http://server-ip:port/
    export http_proxy=http://127.0.0.1:8087/
    export http_proxy=http://proxy-server.mycorp.com:8087/
于 2012-07-09T21:30:12.270 回答