1

如何使 Apache Tika 索引 PDF 和文本文件(包括子目录)的目录并将其提交给 Apache Solr,以便我可以使用搜索引擎搜索该目录的内容?

任何建议,在 Windows 或 Linux 上都没关系。我无法让它工作,因为这两个项目的文档主要是为开发人员准备的,这很好,但是,我不能让他们这样做,因为文档含糊不清,对于非 java 来说不够清晰开发商。

非常简单:我如何使用 Apache Lucene 系列项目构建搜索引擎,这些项目可以索引并提供对 /home/material 或 c:/material 或 /cygdrive/c/material 的搜索

非常感谢提前

4

2 回答 2

2

Solr 提供ExtractingRequestHandler帮助索引丰富的文档。
页面上列出的示例使用 curl 将数据提供给 Solr。
一个可以遍历文件夹和子文件夹并执行 curl 命令的简单脚本可以为所有文档创建索引。
如果您使用 Solr 的任何客户端,如 Solrj、rsolr,您可以轻松地遍历目录并执行 http url 来索引文档。

于 2012-02-17T18:32:19.430 回答
2

你熟悉什么编程语言?

作为一个 Python 人,我会熟悉urllib2HTTP 客户端库和os可以处理文件系统的模块(列出目录中的文件,打开文件指针以将文件发布到 Solr)。同样相关的是set数据类型,可用于比较 FS 和 Solr 索引中的文档。

所以,

  1. 学习将丰富的文档发布到 Solr(使用 Solr 库或 HTTP 客户端库)
  2. 制定逻辑以从 Solr 和目录中检索所有文档名称
  3. 将所有丢失/更改的文档上传到 Solr。
于 2012-02-17T14:00:43.810 回答