pdf - 将 xml ocr/文本信息从一个 pdf 导入/嵌入到另一个 pdf

Question

我正在尝试优化图像扫描 pdf 的质量/文件大小，同时保持 ocr 质量。

我可以尝试在高质量 pdf 文档的 ocr 之后进行下采样，但与使用 Photoshop 和导出较低 dpi/优化页面并使用这些页面创建相比，我使用的工具（主要是 acrobat）不会创建较小的文件大小.pdf

如果可能的话，一个更好的解决方案是获取一个已经过 ocred 的 image-pdf 文档（当前情况下为 800M）并将 ocr 层应用于较低 rez 的下采样文档。

我可以使用 pdfminer 成功提取坐标为 xml 的 OCR 信息，但我想将其应用到已使用 photoshop 下采样的相同文件中。我以为我读到了 pdftk 可以做到这一点，但我再也找不到这些信息了。

任何建议将不胜感激。

杰克

score 0 · Accepted Answer

您能描述一下您目前创建 PDF 的方式吗？

可能有用

1 回答 1