solr - 使用 SOLR 索引 HTML 文件

Question

我正在尝试使用 SOLR 索引一组 HTML 文件。基本思想是为开发的网站实现网站搜索功能。我对 Lucene 和 SOLR 非常陌生，并且已经尝试了站点中可用的一些示例，并使用它索引了一些文档。但是我无法就什么是最好的做事方式得出结论。有些人建议使用 DataImportHandler，有些地方我看到使用 ExtractingRequestHandler。我这边的一个简单尝试是使用 ExtractingRequestHandler。另外我将不得不更新文件列表，例如，将来可能会删除一些 HTML，可能会添加一些 HTML 等等。请在选择方法时建议要考虑的因素

干杯！！

score 0 · Accepted Answer

我建议您使用Nutch将您的 HTML 文件抓取并索引到 Solr。它内置了对跟踪文件删除/添加到站点的支持。

另请查看Nutch Wiki以获取有关入门的教程。

solr - 使用 SOLR 索引 HTML 文件

1 回答 1

Related

Reference