6

我正在寻找处理一堆扫描的回复明信片,上面有手写的联系信息(即姓名、地址、电话、电子邮件等)。

我很好奇是否有一个可行的开源库或软件可以做到这一点(最好是 Java 或 R)。环顾四周,很多信息都是 2009 年或早期的,并不是很令人鼓舞。

语言是英语。

有什么建议么?

编辑:我查看了 OCRopus 页面,但最新版本是 2009 年 5 月。任何人对此有任何经验或是否有更新的版本?

4

3 回答 3

3

您可能想查看http://code.google.com/p/ocropus/,这是一个开源 OCR 系统。

但是,它似乎是用 C++ 和 python 编写的。

*更新:*

由于其中一个研究项目是手写分析仪,我希望它可能会有所帮助。

OCRopus 引擎基于两个研究项目:90 年代中期开发并由美国人口普查局部署的高性能手写识别器,以及新颖的高性能布局分析方法。

如果您查看http://code.google.com/p/ocropus/source/browse/源文件自 10/2011 以来已更新(三个之一来自 3/2012),所以它似乎是目前仍在开发中。

于 2012-04-20T16:01:09.577 回答
3

我不知道有任何可用的开源手写识别库,不管我已经在 OCR 领域工作了一段时间。通常手写比 OCR 更难,我会说甚至没有像样的商业解决方案。所有存在的都有自己的问题,只能在非常狭窄的应用程序中工作,比如字典有限、文本写得很好等。如果你仍然感兴趣,我建议你检查法国公司 I2IA 的技术

于 2012-04-20T17:05:53.393 回答
2

首先,据我所知,没有原生的开源 Java OCR SDK。有一些 Java API 封装了对本机接口的调用,即 tesjeract ( http://code.google.com/p/tesjeract/ ) 或 Tess4J ( http://tess4j.sf.net/ )。

接下来,您需要指定是查找手写文本还是手写文本。如果您需要手写文本识别 - 由于其他答案中所述的原因,我不相信您将能够解决您的任务。

但是,如果您需要 ICR(代表智能字符识别)用于手写文本(在调查、表格等中使用清晰的字母),则可能有解决方案。虽然我相信 tesseract(尽管被认为是开源引擎中最好的)在这里无法为您完成这项工作,但您可以寻找更准确的 SDK。

也许这个问题会有所帮助:手写扫描文档到 .txt 文件?

于 2012-04-23T13:22:26.957 回答