0

我已经使用 NUTCH 1.2 成功爬取了一个站点。现在我想将它与 solr 3.1 集成。问题是当我发出命令 $ bin/nutch solrindex localhost:8080/solr/ crawl/crawldb crawl/linkdb cra wl/segments/* 时发生错误。我正在附上我的 nutch 日志

请帮我解决这个问题

错误的请求

请求: //localhost:8080/solr/update?wt=javabin&version=2 at org.apache.solr.client.solrj.impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:436) at org.apache.solr.client.solrj .impl.CommonsHttpSolrServer.request(CommonsHttpSolrServer.java:245) 在 org.apache.solr.client.solrj.request.AbstractUpdateRequest.process(AbstractUpdateRequest.java:105) 在 org.apache.solr.client.solrj.SolrServer.add (SolrServer.java:49) 在 org.apache.nutch.indexer.solr.SolrWriter.close(SolrWriter.java:75) 在 org.apache.nutch.indexer.IndexerOutputFormat$1.close(IndexerOutputFormat.java:48) 在 org .apache.hadoop.mapred.ReduceTask.runOldReducer(ReduceTask.java:474) 在 org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:411) 在 org.apache.hadoop.mapred.LocalJobRunner$Job.run (LocalJobRunner.java:216) 2013-07-08 17:38:47,577 错误 solr.SolrIndexer - java.io.IOException:作业失败!

4

1 回答 1

0

您需要将以下 Apache Commons 库添加到类路径中:(commons-httpclient.jar您将把它放在您的 nutch 安装使用的其他 JAR 所在的同一文件夹中)。

你可以在这里找到当前版本的 HttpClient http://hc.apache.org/httpcomponents-client-ga/

请注意,您的 Nutch 版本可能使用旧版本的 HttpClient 并且当前版本的 HttpClient 不向后兼容该旧版本。在这种情况下,您需要下载旧版本的 HttpClient 并将旧版本包含在您的库中。

于 2013-07-08T11:57:26.417 回答