0

嗨,Tika Server 是使用 tesseract 设置的,但它仍然没有读取 PDF 中的嵌入图像。尝试使用两个可用的标题,但没有帮助。

这仅适用于 PDF 文件。同时,OCR 适用于其他文件类型/图像。

在这里使用定制的 docker 容器。奇怪的是,部署在另一台机器上的同一个容器可以工作。有没有低级问题的可能性?

更新: 比较日志后,似乎 OCP 正在将自定义 HTTP 标头小写,如 X-Tika ...、Postman-Token 到 x-tika ...、postman-token 等。任何人都可以帮助我解决可能的问题?

4

2 回答 2

0

似乎 OCP 小写自定义标头是问题的原因。TikaServer 1.25 不支持不区分大小写的 X-Tika 标头。

我已经在 Tika Server 1.26 中修复了它。参考:https ://tika.apache.org/1.26/index.html https://issues.apache.org/jira/browse/TIKA-3320

于 2021-03-30T06:18:01.817 回答
-1

检查https://tika.apache.org/1.24/api/org/apache/tika/parser/pdf/PDFParserConfig.html

pdfParserConfig.setExtractInlineImages(true);
pdfParserConfig.setOcrStrategy(PDFParserConfig.OCR_STRATEGY.OCR_ONLY);`

将pdf扫描的文档转换为图像,然后发送到tesseract

于 2021-03-11T14:10:25.687 回答