python - 判断 PDF 文本是否可见

Question

我正在使用pdfminer库解析一些 PDF 文件。

我需要知道文档是否是扫描文档，扫描机器将扫描的图像放在顶部，将 OCR 提取的文本放在背景中。

有没有办法识别文本是否可见，因为 OCR 机器确实将它放在页面上以供选择。

通常，问题在于区分两个非常不同但看起来相似的案例。

在一种情况下，扫描文档的图像覆盖了大部分页面，其后面带有 OCR 文本。

这是 PDF 作为文本，图像被截断： http: //pastebin.com/a3nc9ZrG

在另一种情况下，有一个背景图像覆盖了页面的大部分，并且前面有文本。

将它们区分开来对我来说很困难。

score 2 · Accepted Answer

您的问题有点令人困惑，所以我不确定什么对您最有帮助。但是，您描述了两种从 OCR 中“隐藏”文本的方法。我认为两者都是可检测的，但一个比另一个容易得多。

隐藏文本
隐藏文本是放置在其他内容后面的常规或不可见文本。换句话说，您使用对象的堆叠顺序来隐藏其中的一些。检测这种情况的唯一方法是找出页面上所有文本对象的位置（计算它们的边界框并非易事，但肯定是可能的），然后确定页面上的任何图像是否重叠那个文本并且在它的前面。一些额外的评论：

不可见文本
PDF 支持不可见文本。更准确地说，PDF 支持不同的文本渲染模式；这些渲染模式确定字符是填充、轮廓、填充+轮廓还是不可见（还有其他可能性）。在您发布的 PDF 文件中，您可以找到以下片段：

BT
3 Tr
0.00 Tc
/F3 8.5 Tf
1 0 0 1 42.48 762.96 Tm
(Chicken ) Tj

那是一只看不见的鸡！指令“3 Tr”将文本渲染模式设置为“3”，这等于 PDF 规范非常优雅地表述的“不可见”或“既不描边也不填充”。

值得一提的是，这两种技术可以被 OCR 引擎互换使用。在扫描的图像上放置不可见的文本实际上是一种很好的做法，因为这意味着大多数 PDF 查看器将允许您选择文本。如果文本在图像“后面”，我在某些时候查看的某些 PDF 查看器不允许文本选择。

score 1 · Accepted Answer

我没有 PDF 1.7 规范的副本，但我怀疑页面上的对象是按顺序呈现的，也就是说，前面的对象最终会被后面的对象覆盖。

因此，您必须遍历布局对象（请参阅执行布局分析）并计算所有内容在页面上的位置、它们的尺寸和它们的呈现顺序（可能还有它们的透明度）。

正如 pdfminer 文档所提到的，PDF 是邪恶的。

2 回答 2