我发现 Nutch 1.4 只包含一个 Indexer/solrindex。Solr 是 Nutch 索引爬取数据的唯一方法吗?如果不是,还有哪些其他方法?
我也想知道为什么 Nutch 1.4 使用 Solr 来索引数据。为什么不自己做呢?不是增加了这两个项目的耦合度吗?
Solr 在内部使用 lucene。从 2005 年开始,nutch 被指定为 Lucene 的子项目。从历史上看,nutch 使用 lucene 索引并且是一个成熟的搜索引擎(直到 1.0 版)。它具有爬取能力,甚至支持通过浏览器索引数据和 UI 来查询索引数据(类似于谷歌搜索)。
由于最初的设计是基于 lucene 的(它是另一个 apache 项目,在那个时期赢得了很多赞誉并且仍然很摇滚),nutch 代码没有更改或通用,因此可以使用其他索引框架。如果您愿意,那么您需要付出很多努力才能将您的索引框架与它结合起来。
在最近的版本中(nutch 版本 1.3 及更高版本),Nutch 开发团队意识到由于不断变化的需求和所需的专业知识,很难跟踪索引所涉及的工作。最好将索引的责任委托给 Solr(它是一个基于 lucene 的索引框架)。Nutch 开发人员只关注爬行部分。所以现在 nutch 不是一个成熟的搜索引擎,而是一个成熟的网络爬虫。
希望这能回答您的问题。您可以浏览nutch 新闻以获取更多信息。
最新动态:
最近正在努力为爬虫创建一个通用库(在 commons 下)。这个项目是commons-crawler,它将具有网络爬虫所需的所有功能,可用于创建爬虫。进一步的 nutch 版本将使用这个库作为依赖项。