java - 在 Windows XP 上运行的开源 OCR 库

Question

我正在寻找在 Windows XP 上运行的开源 OCR 库。我需要它来处理图像和 PDF。大多数情况下，我想从 java 接口这个库。知道是否有任何可用的东西吗？

问候。

score 1 · Accepted Answer

Tesseract 可能是可用的最准确的开源 OCR 引擎。结合 Leptonica 图像处理库，它可以读取多种图像格式并将其转换为 60 多种语言的文本。它是 1995 年 UNLV 精度测试中排名前三的发动机之一。从 1995 年到 2006 年，它几乎没有做任何工作，但从那时起，Google 对其进行了广泛的改进。它是根据 Apache 许可证 2.0 发布的。

Tesseract 适用于 Linux、Windows（使用 VC++ Express 或 CygWin） 和 Mac OSX

这是来自wiki的比较表

score 0 · Accepted Answer

0

查看Tess4J，一个用于 Tesseract OCR API 的 Java JNA 包装器。

于 2013-04-24T15:52:58.333 回答

score 0 · Accepted Answer

http://roncemer.com/software-development/java-ocr/

“Java OCR 是一套用于图像处理和字符识别的纯 Java 库。”

score 0 · Accepted Answer

我会看一下 Apache Tika 项目并将其与Tesseract OCR结合起来。Apache Tika 管理从各种文件类型中打开和提取内容。它具有非常可插拔的设计，因此您可以连接 OCR 进行输入，甚至可以将其输出连接到 Lucene 进行搜索。它是纯Java。

score 0 · Accepted Answer

0

Heat 在关于 OCR 的研究上做了很多工作，看看这个

于 2013-04-24T07:13:09.580 回答

java - 在 Windows XP 上运行的开源 OCR 库

5 回答 5

Related

Reference