4

根据Wikipedia的说法,“拉丁文字、打字文本的准确识别现在被认为是在诸如扫描打印文档等清晰成像的应用中已基本解决的问题。” 但是,它没有给出引用。

我的问题是:这是真的吗?当前的最先进技术是否如此出色以至于 - 对于英文文本的良好扫描 - 没有任何重大改进需要改进?

或者,这个问题的一个不太主观的形式是:现代 OCR 系统在识别英文文本以进行高质量扫描方面的准确度如何?

4

2 回答 2

5

我认为这确实是一个已解决的问题。只需查看C#C++Java等的大量 OCR 技术文章即可。

当然,文章确实强调脚本需要打字并且清晰。这使得识别成为一项相对微不足道的任务,而如果您需要对扫描的页面(噪声)或手写(扩散)进行 OCR,它可能会变得更加棘手,因为要正确调整的东西更多。

于 2009-10-20T10:02:37.953 回答
3

狭义地考虑将足够高质量的 2d 位图分解为矩形,每个矩形都包含一组行为良好的预先指定字体(参见 Omnifont)中的一个标识的拉丁字符,这是一个已解决的问题。

开始使用这些参数,例如古怪的未知字体、嘈杂的扫描、亚洲字符,它开始变得有些不稳定或需要额外的输入。许多著名的 Ominfont 系统不能很好地处理连字。

OCR 的主要问题是理解输出。如果这是一个已解决的问题,Google 图书将提供完美的结果。

于 2010-01-01T09:36:22.557 回答