0

我已经按照 nutch2 教程成功地将 nutch 与 HBase 集成我的问题是当我 ./nutch crawl urls/seed.txt abc -depth 50 -topN 50runtime/local/bin目录中使用以下命令抓取 url 时,

发生了错误 :

Exception in thread "main" java.lang.RuntimeException: job failed: name=generate: null, jobid=job_local1552667151_0002
        at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
        at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199)
        at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
        at org.apache.nutch.crawl.Crawler.run(Crawler.java:152)
        at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)

请给我解决方案。任何解决方案将不胜感激。

4

1 回答 1

0

正如大多数人可能建议的那样,hadoop.log 是查找错误的更好描述的好地方。在没有这些信息的情况下,我将冒险进行以下猜测:

  1. 你已经在 Windows 盒子上设置了 nutch
  2. 您正在 cygwin 中运行 hbase(尝试直接在 Windows 命令提示符下运行 hbase 很可能会失败)
  3. 您可能遇到了 hdfs 文件系统错误(检查 hadoop.log 会告诉您是否是这种情况)。

这是在 apache 问题 jira 中发布的解决方法: https ://issues.apache.org/jira/browse/HADOOP-7682 另一种灵魂为其提供了补丁: https ://github.com/congainc/patch-hadoop_7682- 1.0.x-win 如果这确实是您遇到的问题,请使用上面补丁中提到的 WinLocalFileSystem 类,并通过在您的 nutch-site.xml 中添加以下内容来配置 nutch 以使用它:

<property>
    <name>fs.file.impl</name>
    <value>org.apache.nutch.util.WinLocalFileSystem</value>
    <description>Enables patch for issue HADOOP-7682 on Windows
    </description>
</property>
于 2013-12-12T02:19:24.477 回答