我正在尝试优化图像扫描 pdf 的质量/文件大小,同时保持 ocr 质量。
我可以尝试在高质量 pdf 文档的 ocr 之后进行下采样,但与使用 Photoshop 和导出较低 dpi/优化页面并使用这些页面创建相比,我使用的工具(主要是 acrobat)不会创建较小的文件大小.pdf
如果可能的话,一个更好的解决方案是获取一个已经过 ocred 的 image-pdf 文档(当前情况下为 800M)并将 ocr 层应用于较低 rez 的下采样文档。
我可以使用 pdfminer 成功提取坐标为 xml 的 OCR 信息,但我想将其应用到已使用 photoshop 下采样的相同文件中。我以为我读到了 pdftk 可以做到这一点,但我再也找不到这些信息了。
任何建议将不胜感激。
杰克