0

我正在使用TIKA-app (v 1.23) 进行一些测试,以从输入文件中提取嵌入式资源,通过-z在命令行上使用app. 此参数启用嵌入式资源提取并将资源写入工作目录。现在,我想使用这个基于TIKA-server 的功能。但是,我无法在文档中找到正确的方法,我想知道或者服务器变体TIKA提供了这个选项?

那么,如何使用 -server 应用程序提取TIKA嵌入式资源请注意,我不是在寻找嵌入资源的内容,而是寻找实际的二进制文件数据(我想将附件与输入文件分开)

4

1 回答 1

1

Apache Tika Server 的/unpack端点提供了类似的功能。如果将此与设置为 true 的X-Tika-PDFExtractInlineImages标头结合使用,它会执行等效处理。

例如:

curl -T test.pdf http://localhost:9998/unpack > test.zip --header "X-Tika-PDFExtractInlineImages: true"

将返回一个 ZIP 文件,其中包含 ZIP 中的所有图像。

您可以在此处阅读有关端点的更多信息。

于 2020-11-12T03:23:43.783 回答