1

我正在运行 Ubuntu 14.04,我试图让一个基本的 Nutch Web Crawl 运行无济于事。按照教程,我设置了以下构建块:

  • Ubuntu 14.04
  • HBase 0.90.4
  • Nutch 2.2.1
  • 索尔 4.3.1

我确认 HBase 和 Solr 都在运行,我填充了urls/seed.txt文件。然后当我打电话时;

bin/nutch inject urls

我看到了以下输出,然后看起来 Nutch 只是挂起。

InjectorJob: starting at 2014-06-09 23:38:49
InjectorJob: Injecting urlDir: urls/seed.txt

这个stackoverflow问题似乎与我的相似,但是我不在代理后面,所以答案不适用。

解决此问题的任何帮助将不胜感激。

4

1 回答 1

3

Ubuntu 默认主机中的环回 IP 地址为 127.0.1.1。HBase(根据此页面)要求您的环回 IP 地址为 127.0.0.1。

默认情况下,Ubuntu/etc/hosts文件包含(myComputerName 是您的计算机名称):

127.0.0.1   localhost
127.0.1.1   myComputerName

用于sudo gedit /etc/hosts更新您的主机文件,如下所示:

127.0.0.1   localhost
127.0.0.1   myComputerName

重启 Ubuntu。Nutch 应该不再有将 url 注入 HBase 的问题。

于 2014-06-10T16:44:50.610 回答