python-3.x - 如何忽略tika中的扫描图像

Question

我正在尝试解析 tika 中的 pdf 文件。在一些手写扫描文档中，tika 正在解析文件并返回没有意义的垃圾文本。我从这里使用 python tika 包装器。有什么方法可以忽略包含图像的 pdf。Tesseract OCR 解析器已关闭。解析文件后不显示在元数据中。

score 1 · Accepted Answer

要忽略内联图像，您应该使用标志“X-Tika-PDFextractInlineImages: false”

pdfParserConfig.setExtractInlineImages(false)

但老实说，将值设置为 false 仅对“本机 pdf”有意义

对于扫描的文档，此标志必须设置为 true，而不是唯一的改进过程的方法是打开 ocr 并使用 OcrStrategy：OCR_ONLY

1 回答 1