我现在正在学习用 Nutch 抓取页面。但是有一个我无法解决的问题。我想通过本地代理服务器抓取页面,地址为 127.0.0.1:8087。并且服务器运行良好(我的 FireFox 可以很好地使用它)。在 Nutch-conf 文件 conf/nutch-site.xml 中,我添加了一些属性如下:
http.agent.host--> 127.0.0.1
http.proxy.port-->8087
我的本地服务器不需要任何身份验证。
Nutch 可以成功运行,但不通过代理请求。
谢谢。
只需将这些属性添加到 nutch-site.xml (将 XXXX 替换为正确的值)
<property>
<name>http.proxy.host</name>
<value>XXXXXX</value>
<description>The proxy hostname. If empty, no proxy is used.</description>
</property>
<property>
<name>http.proxy.port</name>
<value>XXXXXXXX</value>
<description>The proxy port.</description>
</property>
如果您需要身份验证:
<property>
<name>http.proxy.username</name>
<value></value>
<description>Username for proxy. This will be used by
'protocol-httpclient', if the proxy server requests basic, digest
and/or NTLM authentication. To use this, 'protocol-httpclient' must
be present in the value of 'plugin.includes' property.
NOTE: For NTLM authentication, do not prefix the username with the
domain, i.e. 'susam' is correct whereas 'DOMAIN\susam' is incorrect.
</description>
</property>
<property>
<name>http.proxy.password</name>
<value></value>
<description>Password for proxy. This will be used by
'protocol-httpclient', if the proxy server requests basic, digest
and/or NTLM authentication. To use this, 'protocol-httpclient' must
be present in the value of 'plugin.includes' property.
</description>
</property>
我遇到了一些类似的问题。不确定是否相同。我从终端为这些设置路径并运行 Nutch。它工作得很好。我没有在 Nutch 中进行任何其他附加设置。它适用于 Ubuntu,但不知何故它不适用于 mac。让我知道它是否有效。
export http_proxy=http://server-ip:port/
export http_proxy=http://127.0.0.1:8087/
export http_proxy=http://proxy-server.mycorp.com:8087/