1

我正在尝试优化图像扫描 pdf 的质量/文件大小,同时保持 ocr 质量。

我可以尝试在高质量 pdf 文档的 ocr 之后进行下采样,但与使用 Photoshop 和导出较低 dpi/优化页面并使用这些页面创建相比,我使用的工具(主要是 acrobat)不会创建较小的文件大小.pdf

如果可能的话,一个更好的解决方案是获取一个已经过 ocred 的 image-pdf 文档(当前情况下为 800M)并将 ocr 层应用于较低 rez 的下采样文档。

我可以使用 pdfminer 成功提取坐标为 xml 的 OCR 信息,但我想将其应用到已使用 photoshop 下采样的相同文件中。我以为我读到了 pdftk 可以做到这一点,但我再也找不到这些信息了。

任何建议将不胜感激。

杰克

4

1 回答 1

0

您能描述一下您目前创建 PDF 的方式吗?

使用 IText 可以设置添加图像的压缩级别

可能有用

于 2012-07-24T11:43:06.730 回答