solr - 如果我想索引本地文件，是否需要使用 Nutch 抓取本地文件？

Question

我对使用 Nutch 的理解是将网页下载到本地文件系统，以便 ElasticSearch / Solr 可以对其进行索引。

如果我想索引本地文件系统，因为所有文件都已经在本地文件系统中，我还需要使用 Nutch 吗？

谢谢。

score 3 · Accepted Answer

如果文件已经存在，您可以让 Nutch 抓取文件系统。您需要激活protocol-file插件。

另外， Behemoth也是一个不错的选择。查看其用于从原始文档中提取文本和元数据的 Apache Tika 模块，以及 solr 模块。

score 1 · Accepted Answer

2 回答 2