我运行 Apache tika-server 1.22 的未修改的 JAX-RS 实例,并将其用作 HTTP 端点服务,我将文件发布到(主要是 Office、PDF 和 RTF)并通过 HTTP 请求获取纯文本再现(使用Accept="text/plain"
标题)来自我们的应用程序。
从 Tika 1.15 开始,默认行为现在是“提取所有嵌入文档” TIKA-2096。
我希望能够在我们的 tika 服务器上关闭此行为,以便不提取嵌入式文档,并且我只获得主文档内容的文本再现。
是否可以通过tika-config.xml
文件执行此操作,或者我是否需要进行自定义构建和子类EmbeddedDocumentExtractor
以便它不做任何事情?
对tika-parser-exclude-pdf-attachments的回答表明您可以通过 subclassing 关闭此行为EmbeddedDocumentExtractor
,但我想检查是否可以通过tika-config.xml
无需对 tika-server 进行自定义构建来执行此操作。
我看过配置 Tika,但这里没有提到嵌入式文档。