apache-tika - TIKA Server 提取嵌入式资源

Question

我正在使用TIKA-app (v 1.23) 进行一些测试，以从输入文件中提取嵌入式资源，通过-z在命令行上使用app. 此参数启用嵌入式资源提取并将资源写入工作目录。现在，我想使用这个基于TIKA-server 的功能。但是，我无法在文档中找到正确的方法，我想知道或者服务器变体TIKA提供了这个选项？

那么，如何使用 -server 应用程序提取TIKA嵌入式资源？请注意，我不是在寻找嵌入资源的内容，而是寻找实际的二进制文件数据（我想将附件与输入文件分开）

score 1 · Accepted Answer

Apache Tika Server 的/unpack端点提供了类似的功能。如果将此与设置为 true 的X-Tika-PDFExtractInlineImages标头结合使用，它会执行等效处理。

例如：

curl -T test.pdf http://localhost:9998/unpack > test.zip --header "X-Tika-PDFExtractInlineImages: true"

将返回一个 ZIP 文件，其中包含 ZIP 中的所有图像。

您可以在此处阅读有关端点的更多信息。

apache-tika - TIKA Server 提取嵌入式资源

1 回答 1

Related

Reference