0

我正在尝试使用 SOLR 索引一组 HTML 文件。基本思想是为开发的网站实现网站搜索功能。我对 Lucene 和 SOLR 非常陌生,并且已经尝试了站点中可用的一些示例,并使用它索引了一些文档。但是我无法就什么是最好的做事方式得出结论。有些人建议使用 DataImportHandler,有些地方我看到使用 ExtractingRequestHandler。我这边的一个简单尝试是使用 ExtractingRequestHandler。另外我将不得不更新文件列表,例如,将来可能会删除一些 HTML,可能会添加一些 HTML 等等。请在选择方法时建议要考虑的因素

干杯!!

4

1 回答 1

0

我建议您使用Nutch将您的 HTML 文件抓取并索引到 Solr。它内置了对跟踪文件删除/添加到站点的支持。

另请查看Nutch Wiki以获取有关入门的教程。

于 2013-02-22T13:38:26.993 回答