0

我一直在尝试找到一种方法来让我们的 OCRed PDF (bad-uc.pdf) 表现得与保存的中缀 (good-uc.pdf) 相同。

如果您在 Acrobat Reader 中打开以下两个文件(任何版本都应该显示相同的问题),您会看到 bad-uc.pdf 在页面图像之前加载文本(非常缓慢)...其中 good-uc.pdf将所有内容加载在一起(似乎更快且响应更快)。

good-uc.pdf: https://drive.google.com/file/d/0B-Nxr9ySWJnNX2dZSmVscEZIRmc/view?usp=sharing bad-uc-pdf: https://drive.google.com/file/d/0B -Nxr9ySWJnNN2t6X2hFNTBxa0U/view?usp=sharing

我已经尝试过:pdftk、pdftops、ghostscript、pdf2ps、ps2pdf 和 qpdf,但仍然无法在文本之前加载图像...... PDF 专家能否解释一下为什么这两个 PDF 的行为不同......

我的猜测是中缀重组 PDF,以便在嵌入文本之前加载图像,但我找不到可以进行这种 PDF 结构优化的 Linux 命令行工具。

非常感激!!杰弗里

4

1 回答 1

0

阐明为什么这两个 PDF 的行为不同...

实际上,您的两个 PDF 需要大约相同的时间才能被我的计算机上的 Adob​​e Reader 正确显示。但是,虽然您的 bad-uc.pdf 首先显示 OCR 文本,然后用扫描覆盖它,但 good-uc.pdf 首先似乎显示一个普通页面,然后用扫描覆盖它。

造成这种情况的原因是 good-uc.pdf 以渲染模式 3(“不可见”)绘制 OCR 文本,而 bad-uc.pdf 通常以渲染模式 0(“填充轮廓”)绘制它,填充颜色为黑色。由于不可见的绘画可能比实际的黑白绘画需要更少的时间,因此渲染时间之间甚至可能存在客观差异,但我认为这主要是主观的。

于 2016-07-11T22:17:46.890 回答