1

我们在 Lucene 中有一个遗留代码,作为一项新要求,我们需要使用 Apache Nutch 进行爬网。这意味着 Apache Nutch 应该抓取内容,然后现有的 Lucene 分析器应该生成索引。

我的问题是 Apache Nutch 已经生成了我无法从中生成内容的索引。我们不想使用 Nutch 索引。

您建议我使用其他爬虫还是仍然可以为此使用 Apache Nutch?

4

2 回答 2

1

Nutch:这是一种网络或文件爬虫,它将爬取网页或文件共享并获取和解析内容。它被设计为与 Apache Solr 集成,因此具有许多功能,最有用的是将它生成的内容传递给 Solr,但 Nutch 不做索引。

Solr:Solr 是一个搜索服务器,它将使用 Lucene 为您的数据建立索引。一旦 Nutch 将文档通过(通过 http)Solr 将索引它们并存储 Lucene 索引。有一个很好的搜索界面允许您查询 Solr,它将以 XML 格式返回结果。

使用 Solr 和 Nutch - 它们旨在协同工作

查看设置 Solr 4设置 Nutch

于 2013-08-22T08:35:36.333 回答
0

您可以使用 solr 进行索引。Solr 是一个基于 Lucene Java 搜索库的开源搜索服务器,可以使用 Nutch 轻松配置。

命令:

它将爬取种子 url 列表到指定的深度并将它们索引到指定的 solr 服务器。Solr 在内部创建 lucene 索引..

参考:http ://wiki.apache.org/nutch/NutchTutorial

于 2013-08-22T08:25:56.340 回答