pdf - 如何配置 Apache Tika 和 Apache Solr 以索引和搜索 pdf 文件目录？

Question

如何使 Apache Tika 索引 PDF 和文本文件（包括子目录）的目录并将其提交给 Apache Solr，以便我可以使用搜索引擎搜索该目录的内容？

任何建议，在 Windows 或 Linux 上都没关系。我无法让它工作，因为这两个项目的文档主要是为开发人员准备的，这很好，但是，我不能让他们这样做，因为文档含糊不清，对于非 java 来说不够清晰开发商。

非常简单：我如何使用 Apache Lucene 系列项目构建搜索引擎，这些项目可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索

非常感谢提前

score 2 · Accepted Answer

Solr 提供ExtractingRequestHandler帮助索引丰富的文档。
页面上列出的示例使用 curl 将数据提供给 Solr。
一个可以遍历文件夹和子文件夹并执行 curl 命令的简单脚本可以为所有文档创建索引。
如果您使用 Solr 的任何客户端，如 Solrj、rsolr，您可以轻松地遍历目录并执行 http url 来索引文档。

score 2 · Accepted Answer

你熟悉什么编程语言？

作为一个 Python 人，我会熟悉urllib2HTTP 客户端库和os可以处理文件系统的模块（列出目录中的文件，打开文件指针以将文件发布到 Solr）。同样相关的是set数据类型，可用于比较 FS 和 Solr 索引中的文档。

所以，

学习将丰富的文档发布到 Solr（使用 Solr 库或 HTTP 客户端库）
制定逻辑以从 Solr 和目录中检索所有文档名称
将所有丢失/更改的文档上传到 Solr。

pdf - 如何配置 Apache Tika 和 Apache Solr 以索引和搜索 pdf 文件目录？

2 回答 2

Related

Reference