我正在与 SOLR 合作一个项目,我们在该项目中导入一堆(约 40k 项)丰富的文档,主要是 MS Word、Powerpoint、Excel 和 PDF。
使用 SOLR 时是否有最佳实践schema.xml
和/或solrconfig.xml
在 SOLR 中使用ExtractingRequestHandler
?
我一直在对默认模式进行调整,以尝试让构面在日期修改时间上起作用,但即使没有,我认为当 Tika 的默认输出足够时,很可能存在一个很好的例子来说明这些文件应该如何。
如果没有最佳实践之类的东西schema.xml
和/或solrconfig.xml
我也对好的例子感兴趣,最好来自现有的开源项目,甚至是好的博客文章。
欢迎任何指点!