0

我一直在玩 nutch 2.x,是否按照本文中的建议按照 Nutch 2.x 教程进行设置但我仍然无法弄清楚 - 任何帮助将不胜感激。

按照教程使用 INJECT 命令时,它会注入我在种子.txt 中的 2 个 URL:

nutch inject ../local/urls/seed.txt 

但是在运行脚本时它不会访问任何网址:

bin/crawl ../local/urls/seed.txt TestCrawl *ttp://l*calhost:8983/solr 2
4

2 回答 2

0

我现在重新开始安装 Nutch 2.2.1 - Hbase-0.94.10 和 Solr 4.4.0 的全新安装,正如邮件列表中的某人所建议的那样,因为教程中提到的版本已经有多年历史了,现在我得到的错误是:

[root@localhost local]# bin/nutch injection /urls/seed.txt InjectorJob: 从 2013-08-11 17:59:32 开始 InjectorJob: Injecting urlDir: /urls/seed.txt InjectorJob: org.apache.gora. util.GoraException:java.lang.RuntimeException:java.lang.IllegalArgumentException:不是主机:端口对:�2249@localhost.localdomainlocalhost,45431,1376235201648

于 2013-08-11T16:02:47.987 回答
0

虽然这是一个很长的问题,但我在这里有一个建议。因为nutch是apache项目,所以它会服从robots.txt,也许正因为如此,你得到了什么。你可以gedit src/java/org/apache/ nutch/fetcher/FetcherReducer.java 取消注释

/*if (!rules.isAllowed(fit.u.toString())) {
          // unblock
          fetchQueues.finishFetchItem(fit, true);
          if (LOG.isDebugEnabled()) {
            LOG.debug("Denied by robots.txt: " + fit.url);
          }
          output(fit, null, ProtocolStatusUtils.STATUS_ROBOTS_DENIED,
              CrawlStatus.STATUS_GONE);
          continue;
        }
    */
于 2017-05-20T11:49:04.873 回答