1

我的Jackrabbit 2.4说,SearchIndex元素的textFilterClasses参数已被弃用并被忽略。当我一起删除textFilterClasses参数时,它会索引 Pdf、Rtf - 所有内容。

当我没有指定任何提取器时,它怎么知道它应该索引哪些二进制文件?

API 说它已被弃用,但没有提供任何替代方案。

谢谢!

4

1 回答 1

3

在 Jackrabbit 2.x 中,Apache Tika 被引入作为默认的二进制文件解析器。默认情况下,Jackrabbit 带有一个默认的 tika-config.xml 文件,其中包含要解析和提取的 mime 类型的配置。

在 Jackrabbit 2.4 中,您应该能够从 repository.xml 中设置 tika-config.xml 的位置。

搜索索引配置中的正确参数应类似于:

<SearchIndex class="org.apache.jackrabbit.core.query.lucene.SearchIndex">
  <param name="path" value="${wsp.home}/index"/>
  <param name="supportHighlighting" value="true"/>
  <param name="tikaConfigPath" value="${wsp.home}/tika-config.xml"/>
</SearchIndex>
于 2012-04-18T13:53:48.220 回答