您的问题有点令人困惑,所以我不确定什么对您最有帮助。但是,您描述了两种从 OCR 中“隐藏”文本的方法。我认为两者都是可检测的,但一个比另一个容易得多。
隐藏文本
隐藏文本是放置在其他内容后面的常规或不可见文本。换句话说,您使用对象的堆叠顺序来隐藏其中的一些。检测这种情况的唯一方法是找出页面上所有文本对象的位置(计算它们的边界框并非易事,但肯定是可能的),然后确定页面上的任何图像是否重叠那个文本并且在它的前面。一些额外的评论:
- 从理论上讲,它可能不是隐藏它的图像,但在您的 OCR 情况下,我猜它始终是图像。
- 尽管图像可能与它重叠,但它也可能以某种方式是透明的。在这种情况下,下面的文本可能仍然会发光。在您使用通用 OCR 引擎的情况下,可能不太可能。
不可见文本
PDF 支持不可见文本。更准确地说,PDF 支持不同的文本渲染模式;这些渲染模式确定字符是填充、轮廓、填充+轮廓还是不可见(还有其他可能性)。在您发布的 PDF 文件中,您可以找到以下片段:
BT
3 Tr
0.00 Tc
/F3 8.5 Tf
1 0 0 1 42.48 762.96 Tm
(Chicken ) Tj
那是一只看不见的鸡!指令“3 Tr”将文本渲染模式设置为“3”,这等于 PDF 规范非常优雅地表述的“不可见”或“既不描边也不填充”。
值得一提的是,这两种技术可以被 OCR 引擎互换使用。在扫描的图像上放置不可见的文本实际上是一种很好的做法,因为这意味着大多数 PDF 查看器将允许您选择文本。如果文本在图像“后面”,我在某些时候查看的某些 PDF 查看器不允许文本选择。