apache - Apache Nutch 与 Lucene

Question

我们在 Lucene 中有一个遗留代码，作为一项新要求，我们需要使用 Apache Nutch 进行爬网。这意味着 Apache Nutch 应该抓取内容，然后现有的 Lucene 分析器应该生成索引。

我的问题是 Apache Nutch 已经生成了我无法从中生成内容的索引。我们不想使用 Nutch 索引。

您建议我使用其他爬虫还是仍然可以为此使用 Apache Nutch？

score 1 · Accepted Answer

Nutch：这是一种网络或文件爬虫，它将爬取网页或文件共享并获取和解析内容。它被设计为与 Apache Solr 集成，因此具有许多功能，最有用的是将它生成的内容传递给 Solr，但 Nutch 不做索引。

Solr：Solr 是一个搜索服务器，它将使用 Lucene 为您的数据建立索引。一旦 Nutch 将文档通过（通过 http）Solr 将索引它们并存储 Lucene 索引。有一个很好的搜索界面允许您查询 Solr，它将以 XML 格式返回结果。

使用 Solr 和 Nutch - 它们旨在协同工作

score 0 · Accepted Answer

您可以使用 solr 进行索引。Solr 是一个基于 Lucene Java 搜索库的开源搜索服务器，可以使用 Nutch 轻松配置。

命令：

它将爬取种子 url 列表到指定的深度并将它们索引到指定的 solr 服务器。Solr 在内部创建 lucene 索引..

2 回答 2