2

我使用 Apache Jackrabbit 2.6.0 作为我的文档管理系统。

当我上传带有附件的电子邮件类型的文档时,它会正确索引电子邮件内容。但是,它不会索引附件的内容。

我浏览了 Jackrabbit 的源代码,在调试时观察到它使用 Apache Tika 从二进制文件中提取文本,如办公文档(msg、docx 等)。看来,OutlookExtractor.java 无法为附件类型的文档识别正确的解析器。

我在 tika-config.xml 中使用默认配置(它由 jackrabbit 的 repository.xml 使用)。

如果任何人有任何提示或指示,请告诉我。我是否缺少 tika-config 中特定于电子邮件和附件的任何内容?

4

0 回答 0