我正在使用 Apache Tika 从各种文档格式中提取文本。我也想从这些文件中提取图像(通常是 PDF 或 Word)。
我使用 TikaCLI 作为 -z (--extract) 选项的概念证明,但它从不提取任何附件。TikaCLI 的帮助屏幕和一些网站表明这应该可以工作。我没有从 Tika 得到任何输出:
C:\work>Setup.CIPDev-6-3-0-2583\java\bin\java.exe -jar Setup.CIPDev-6-3-0-2583\tomcat\webapps\JavaBridge\WEB-INF\lib\tika-app-1.3.jar -z attachment.pdf
我尝试了各种参数、文件和附件组合,但均未成功。有没有人使用 Apache Tika 从文件中成功提取附件?如果是这样,你能提供一些关于你是如何做到的指导吗?
任何帮助是极大的赞赏。