我正在尝试解析 tika 中的 pdf 文件。在一些手写扫描文档中,tika 正在解析文件并返回没有意义的垃圾文本。我从这里使用 python tika 包装器。有什么方法可以忽略包含图像的 pdf。Tesseract OCR 解析器已关闭。解析文件后不显示在元数据中。
问问题
309 次
我正在尝试解析 tika 中的 pdf 文件。在一些手写扫描文档中,tika 正在解析文件并返回没有意义的垃圾文本。我从这里使用 python tika 包装器。有什么方法可以忽略包含图像的 pdf。Tesseract OCR 解析器已关闭。解析文件后不显示在元数据中。