我对使用 Nutch 的理解是将网页下载到本地文件系统,以便 ElasticSearch / Solr 可以对其进行索引。
如果我想索引本地文件系统,因为所有文件都已经在本地文件系统中,我还需要使用 Nutch 吗?
谢谢。
我对使用 Nutch 的理解是将网页下载到本地文件系统,以便 ElasticSearch / Solr 可以对其进行索引。
如果我想索引本地文件系统,因为所有文件都已经在本地文件系统中,我还需要使用 Nutch 吗?
谢谢。
如果文件已经存在,您可以让 Nutch 抓取文件系统。您需要激活protocol-file
插件。
另外, Behemoth也是一个不错的选择。查看其用于从原始文档中提取文本和元数据的 Apache Tika 模块,以及 solr 模块。
您可以使用数据导入处理程序。请参阅 https://wiki.apache.org/solr/DataImportHandler#FileListEntityProcessor