ocr - 是否存在 OCR 无法识别的字体？

Question

我正在尝试编写一个只能由人类阅读的文档。无法复制文档内容。为此，我将其页面转换为图片并将它们添加回 PDF 文件。主要问题是任何 OCR 程序都可以取回整个书面文本，尤其是页面将变得清晰（而不是扫描的书），这将提高 OCR 的准确性。

那么，是否存在 OCR 无法识别的字体。否则，是否有一种技术可以使我的文档只能被人类读取，而不能被 OCR 识别？（例如，添加特定背景等...）

先感谢您。

score 5 · Accepted Answer

一般来说，OCR 不是通过识别它们的“字体”来识别文本，而是通过分析字符的特征和形状来识别文本，这意味着它在图形的开放区域、不同文本的形状以及文件中的字母中寻找相似之处。扫描转换。（这就是为什么它也可以识别不使用任何字体的手写文档）。

这种通过特征识别文本的过程被称为Intelligent Character Recognition

我不认为您的问题可以有一个确定的答案，即使用哪种字体使其无法被 OCR 读取，但只是为了让一般 OCR 更难尝试使用一些像这样的书法字体不遵循一般字符特征，因此计算机软件难以阅读（这也是 CAPTCHA 背后的主要思想）。

但这同样可能会给一般的 OCR 带来困难，但它仍然不是 100% 成功的解决方案，而且它也会使任何人都很难阅读。

score 1 · Accepted Answer

看看CAPTCHA技术，它与您的目标相同，因此应该已经找到解决您的困难的解决方案/陷阱。

score 0 · Accepted Answer

你想要什么没有真正的解决方案。这是一个典型的例子，在试图发布的同时试图阻止。这没什么意义。

现成的 OCR 解决方案无法识别一些特殊字体。用户需要额外的许可证才能获得识别这些字体的插件。一个例子是古老的德国“Fraktur”字体。但是对于人类来说也很难阅读:-)

score 0 · Accepted Answer

我知道某些 OCR 引擎，例如Tesseract，在处理连接或草书脚本（加入字形）时遇到问题。您可能想尝试一下并找出答案。

score 0 · Accepted Answer

0

在文档中使用图形水印会混淆 OCR。

于 2012-11-13T12:05:16.147 回答

5 回答 5