0

我正在寻找在 Windows XP 上运行的开源 OCR 库。我需要它来处理图像和 PDF。大多数情况下,我想从 java 接口这个库。知道是否有任何可用的东西吗?

问候。

4

5 回答 5

1

检查正方体

Tesseract 可能是可用的最准确的开源 OCR 引擎。结合 Leptonica 图像处理库,它可以读取多种图像格式并将其转换为 60 多种语言的文本。它是 1995 年 UNLV 精度测试中排名前三的发动机之一。从 1995 年到 2006 年,它几乎没有做任何工作,但从那时起,Google 对其进行了广泛的改进。它是根据 Apache 许可证 2.0 发布的。

Tesseract 适用于 Linux、Windows(使用 VC++ Express 或 CygWin) 和 Mac OSX

这是来自wiki的比较表

于 2013-04-24T07:12:46.823 回答
0

查看Tess4J,一个用于 Tesseract OCR API 的 Java JNA 包装器。

于 2013-04-24T15:52:58.333 回答
0

http://roncemer.com/software-development/java-ocr/

“Java OCR 是一套用于图像处理和字符识别的纯 Java 库。”

于 2013-04-24T07:12:44.627 回答
0

我会看一下 Apache Tika 项目并将其与Tesseract OCR结合起来。Apache Tika 管理从各种文件类型中打开和提取内容。它具有非常可插拔的设计,因此您可以连接 OCR 进行输入,甚至可以将其输出连接到 Lucene 进行搜索。它是纯Java。

于 2013-04-24T07:13:05.233 回答
0

Heat 在关于 OCR 的研究上做了很多工作,看看这个

于 2013-04-24T07:13:09.580 回答