我正在使用TIKA
-app (v 1.23
) 进行一些测试,以从输入文件中提取嵌入式资源,通过-z
在命令行上使用app
. 此参数启用嵌入式资源提取并将资源写入工作目录。现在,我想使用这个基于TIKA
-server 的功能。但是,我无法在文档中找到正确的方法,我想知道或者服务器变体TIKA
提供了这个选项?
那么,如何使用 -server 应用程序提取TIKA
嵌入式资源?请注意,我不是在寻找嵌入资源的内容,而是寻找实际的二进制文件数据(我想将附件与输入文件分开)
我正在使用TIKA
-app (v 1.23
) 进行一些测试,以从输入文件中提取嵌入式资源,通过-z
在命令行上使用app
. 此参数启用嵌入式资源提取并将资源写入工作目录。现在,我想使用这个基于TIKA
-server 的功能。但是,我无法在文档中找到正确的方法,我想知道或者服务器变体TIKA
提供了这个选项?
那么,如何使用 -server 应用程序提取TIKA
嵌入式资源?请注意,我不是在寻找嵌入资源的内容,而是寻找实际的二进制文件数据(我想将附件与输入文件分开)
Apache Tika Server 的/unpack端点提供了类似的功能。如果将此与设置为 true 的X-Tika-PDFExtractInlineImages标头结合使用,它会执行等效处理。
例如:
curl -T test.pdf http://localhost:9998/unpack > test.zip --header "X-Tika-PDFExtractInlineImages: true"
将返回一个 ZIP 文件,其中包含 ZIP 中的所有图像。
您可以在此处阅读有关端点的更多信息。