apache - Nutch 2.x 没有错误，也没有结果

Question

我一直在玩 nutch 2.x，是否按照本文中的建议按照 Nutch 2.x 教程进行设置，但我仍然无法弄清楚 - 任何帮助将不胜感激。

按照教程使用 INJECT 命令时，它会注入我在种子.txt 中的 2 个 URL：

nutch inject ../local/urls/seed.txt

但是在运行脚本时它不会访问任何网址：

bin/crawl ../local/urls/seed.txt TestCrawl *ttp://l*calhost:8983/solr 2

score 0 · Accepted Answer

我现在重新开始安装 Nutch 2.2.1 - Hbase-0.94.10 和 Solr 4.4.0 的全新安装，正如邮件列表中的某人所建议的那样，因为教程中提到的版本已经有多年历史了，现在我得到的错误是：

[root@localhost local]# bin/nutch injection /urls/seed.txt InjectorJob: 从 2013-08-11 17:59:32 开始 InjectorJob: Injecting urlDir: /urls/seed.txt InjectorJob: org.apache.gora. util.GoraException：java.lang.RuntimeException：java.lang.IllegalArgumentException：不是主机：端口对：�2249@localhost.localdomainlocalhost,45431,1376235201648

score 0 · Accepted Answer

虽然这是一个很长的问题，但我在这里有一个建议。因为nutch是apache项目，所以它会服从robots.txt，也许正因为如此，你得到了什么。你可以gedit src/java/org/apache/ nutch/fetcher/FetcherReducer.java 取消注释

/*if (!rules.isAllowed(fit.u.toString())) {
          // unblock
          fetchQueues.finishFetchItem(fit, true);
          if (LOG.isDebugEnabled()) {
            LOG.debug("Denied by robots.txt: " + fit.url);
          }
          output(fit, null, ProtocolStatusUtils.STATUS_ROBOTS_DENIED,
              CrawlStatus.STATUS_GONE);
          continue;
        }
    */

apache - Nutch 2.x 没有错误，也没有结果

2 回答 2

Related

Reference