0

我正在尝试解析 tika 中的 pdf 文件。在一些手写扫描文档中,tika 正在解析文件并返回没有意义的垃圾文本。我从这里使用 python tika 包装器。有什么方法可以忽略包含图像的 pdf。Tesseract OCR 解析器已关闭。解析文件后不显示在元数据中。

4

1 回答 1

1

要忽略内联图像,您应该使用标志“X-Tika-PDFextractInlineImages: false”

pdfParserConfig.setExtractInlineImages(false)

但老实说,将值设置为 false 仅对“本机 pdf”有意义

对于扫描的文档,此标志必须设置为 true,而不是唯一的改进过程的方法是打开 ocr 并使用 OcrStrategy:OCR_ONLY

于 2020-09-23T15:52:00.933 回答