solr - 使用 Gora 集成 Nutch-Hbase 和 Solr

Question

我已经按照 nutch2 教程成功地将 nutch 与 HBase 集成我的问题是当我 ./nutch crawl urls/seed.txt abc -depth 50 -topN 50在runtime/local/bin目录中使用以下命令抓取 url 时，

发生了错误：

Exception in thread "main" java.lang.RuntimeException: job failed: name=generate: null, jobid=job_local1552667151_0002
        at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
        at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199)
        at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
        at org.apache.nutch.crawl.Crawler.run(Crawler.java:152)
        at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
        at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)

请给我解决方案。任何解决方案将不胜感激。

score 0 · Accepted Answer

正如大多数人可能建议的那样，hadoop.log 是查找错误的更好描述的好地方。在没有这些信息的情况下，我将冒险进行以下猜测：

你已经在 Windows 盒子上设置了 nutch
您正在 cygwin 中运行 hbase（尝试直接在 Windows 命令提示符下运行 hbase 很可能会失败）
您可能遇到了 hdfs 文件系统错误（检查 hadoop.log 会告诉您是否是这种情况）。

这是在 apache 问题 jira 中发布的解决方法： https ://issues.apache.org/jira/browse/HADOOP-7682 另一种灵魂为其提供了补丁： https ://github.com/congainc/patch-hadoop_7682- 1.0.x-win 如果这确实是您遇到的问题，请使用上面补丁中提到的 WinLocalFileSystem 类，并通过在您的 nutch-site.xml 中添加以下内容来配置 nutch 以使用它：

<property>
    <name>fs.file.impl</name>
    <value>org.apache.nutch.util.WinLocalFileSystem</value>
    <description>Enables patch for issue HADOOP-7682 on Windows
    </description>
</property>

solr - 使用 Gora 集成 Nutch-Hbase 和 Solr

1 回答 1

Related

Reference