我一直在尝试找到一种方法来让我们的 OCRed PDF (bad-uc.pdf) 表现得与保存的中缀 (good-uc.pdf) 相同。
如果您在 Acrobat Reader 中打开以下两个文件(任何版本都应该显示相同的问题),您会看到 bad-uc.pdf 在页面图像之前加载文本(非常缓慢)...其中 good-uc.pdf将所有内容加载在一起(似乎更快且响应更快)。
good-uc.pdf: https://drive.google.com/file/d/0B-Nxr9ySWJnNX2dZSmVscEZIRmc/view?usp=sharing bad-uc-pdf: https://drive.google.com/file/d/0B -Nxr9ySWJnNN2t6X2hFNTBxa0U/view?usp=sharing
我已经尝试过:pdftk、pdftops、ghostscript、pdf2ps、ps2pdf 和 qpdf,但仍然无法在文本之前加载图像...... PDF 专家能否解释一下为什么这两个 PDF 的行为不同......
我的猜测是中缀重组 PDF,以便在嵌入文本之前加载图像,但我找不到可以进行这种 PDF 结构优化的 Linux 命令行工具。
非常感激!!杰弗里