5

我正在与 SOLR 合作一个项目,我们在该项目中导入一堆(约 40k 项)丰富的文档,主要是 MS Word、Powerpoint、Excel 和 PDF。

使用 SOLR 时是否有最佳实践schema.xml和/或solrconfig.xml在 SOLR 中使用ExtractingRequestHandler

我一直在对默认模式进行调整,以尝试让构面在日期修改时间上起作用,但即使没有,我认为当 Tika 的默认输出足够时,很可能存在一个很好的例子来说明这些文件应该如何。

如果没有最佳实践之类的东西schema.xml和/或solrconfig.xml我也对好的例子感兴趣,最好来自现有的开源项目,甚至是好的博客文章。

欢迎任何指点!

4

1 回答 1

0

在 Taming Text (http://www.manning.com/ingersoll/) 书中,您对 ExtractingRequestHandler 有一些参考。这本书是关于使用开源工具(如 solr、tika 或 lucene)处理文本的。

我一直读到第 5 章,直到现在这本书解释了如何通过修改文件 schema.xml 以创建不同类型的字段以及在查询或索引中进行处理来扩展 solr 功能。

于 2011-12-09T14:04:25.183 回答