4

我正在尝试编写一个只能由人类阅读的文档。无法复制文档内容。为此,我将其页面转换为图片并将它们添加回 PDF 文件。主要问题是任何 OCR 程序都可以取回整个书面文本,尤其是页面将变得清晰(而不是扫描的书),这将提高 OCR 的准确性。

那么,是否存在 OCR 无法识别的字体。否则,是否有一种技术可以使我的文档只能被人类读取,而不能被 OCR 识别?(例如,添加特定背景等...)

先感谢您。

4

5 回答 5

5

一般来说,OCR 不是通过识别它们的“字体”来识别文本,而是通过分析字符的特征和形状来识别文本,这意味着它在图形的开放区域、不同文本的形状以及文件中的字母中寻找相似之处。扫描转换。(这就是为什么它也可以识别不使用任何字体的手写文档)

这种通过特征识别文本的过程被称为Intelligent Character Recognition

我不认为您的问题可以有一个确定的答案,即使用哪种字体使其无法被 OCR 读取,但只是为了让一般 OCR 更难尝试使用一些像这样的书法字体不遵循一般字符特征,因此计算机软件难以阅读(这也是 CAPTCHA 背后的主要思想)。

但这同样可能会给一般的 OCR 带来困难,但它仍然不是 100% 成功的解决方案,而且它也会使任何人都很难阅读。

于 2012-11-13T11:06:12.437 回答
1

看看CAPTCHA技术,它与您的目标相同,因此应该已经找到解决您的困难的解决方案/陷阱。

于 2012-11-13T10:58:58.583 回答
0

你想要什么没有真正的解决方案。这是一个典型的例子,在试图发布的同时试图阻止。这没什么意义。

现成的 OCR 解决方案无法识别一些特殊字体。用户需要额外的许可证才能获得识别这些字体的插件。一个例子是古老的德国“Fraktur”字体。但是对于人类来说也很难阅读:-)

于 2012-11-13T10:58:21.697 回答
0

我知道某些 OCR 引擎,例如Tesseract,在处理连接或草书脚本(加入字形)时遇到问题。您可能想尝试一下并找出答案。

于 2012-11-15T02:05:47.057 回答
0

在文档中使用图形水印会混淆 OCR。

于 2012-11-13T12:05:16.147 回答