我最近开始研究 nutch,我试图了解它是如何工作的。据我所知,Nutch 基本上是用来爬网的,而 solr/Lucene 是用来索引和搜索的。但是当我阅读有关 nutch 的文档时,它说 nutch 也可以进行倒排索引。它是在内部使用 Lucene 来进行索引,还是有其他一些用于索引的库?如果它使用 solr/lucene 进行索引,那么为什么需要像 nutch 教程所说的那样使用 nutch 配置 solr?
默认情况下是否完成索引。我的意思是我运行这个命令开始爬行。索引是否在这里发生?
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
或者索引仅在这种情况下发生。(根据教程:如果您已经设置了 Solr 核心并希望对其进行索引,则需要将 -solr 参数添加到您的爬网命令中,例如)
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5