solr - Solr 是否需要索引 Nutch 的爬网数据？

Question

我发现 Nutch 1.4 只包含一个 Indexer/solrindex。Solr 是 Nutch 索引爬取数据的唯一方法吗？如果不是，还有哪些其他方法？

我也想知道为什么 Nutch 1.4 使用 Solr 来索引数据。为什么不自己做呢？不是增加了这两个项目的耦合度吗？

score 2 · Accepted Answer

Solr 在内部使用 lucene。从 2005 年开始，nutch 被指定为 Lucene 的子项目。从历史上看，nutch 使用 lucene 索引并且是一个成熟的搜索引擎（直到 1.0 版）。它具有爬取能力，甚至支持通过浏览器索引数据和 UI 来查询索引数据（类似于谷歌搜索）。

由于最初的设计是基于 lucene 的（它是另一个 apache 项目，在那个时期赢得了很多赞誉并且仍然很摇滚），nutch 代码没有更改或通用，因此可以使用其他索引框架。如果您愿意，那么您需要付出很多努力才能将您的索引框架与它结合起来。

在最近的版本中（nutch 版本 1.3 及更高版本），Nutch 开发团队意识到由于不断变化的需求和所需的专业知识，很难跟踪索引所涉及的工作。最好将索引的责任委托给 Solr（它是一个基于 lucene 的索引框架）。Nutch 开发人员只关注爬行部分。所以现在 nutch 不是一个成熟的搜索引擎，而是一个成熟的网络爬虫。

希望这能回答您的问题。您可以浏览nutch 新闻以获取更多信息。

最新动态：

最近正在努力为爬虫创建一个通用库（在 commons 下）。这个项目是commons-crawler，它将具有网络爬虫所需的所有功能，可用于创建爬虫。进一步的 nutch 版本将使用这个库作为依赖项。

solr - Solr 是否需要索引 Nutch 的爬网数据？

1 回答 1

Related

Reference