2

我对使用 Nutch 的理解是将网页下载到本地文件系统,以便 ElasticSearch / Solr 可以对其进行索引。

如果我想索引本地文件系统,因为所有文件都已经在本地文件系统中,我还需要使用 Nutch 吗?

谢谢。

4

2 回答 2

3

如果文件已经存在,您可以让 Nutch 抓取文件系统。您需要激活protocol-file插件。

另外, Behemoth也是一个不错的选择。查看其用于从原始文档中提取文本和元数据的 Apache Tika 模块,以及 solr 模块。

于 2013-11-18T14:22:58.910 回答
1

您可以使用数据导入处理程序。请参阅 https://wiki.apache.org/solr/DataImportHandler#FileListEntityProcessor

于 2013-10-17T18:27:38.843 回答