我正在寻找在 Windows XP 上运行的开源 OCR 库。我需要它来处理图像和 PDF。大多数情况下,我想从 java 接口这个库。知道是否有任何可用的东西吗?
问候。
检查正方体
Tesseract 可能是可用的最准确的开源 OCR 引擎。结合 Leptonica 图像处理库,它可以读取多种图像格式并将其转换为 60 多种语言的文本。它是 1995 年 UNLV 精度测试中排名前三的发动机之一。从 1995 年到 2006 年,它几乎没有做任何工作,但从那时起,Google 对其进行了广泛的改进。它是根据 Apache 许可证 2.0 发布的。
Tesseract 适用于 Linux、Windows(使用 VC++ Express 或 CygWin) 和 Mac OSX
查看Tess4J,一个用于 Tesseract OCR API 的 Java JNA 包装器。
http://roncemer.com/software-development/java-ocr/
“Java OCR 是一套用于图像处理和字符识别的纯 Java 库。”
我会看一下 Apache Tika 项目并将其与Tesseract OCR结合起来。Apache Tika 管理从各种文件类型中打开和提取内容。它具有非常可插拔的设计,因此您可以连接 OCR 进行输入,甚至可以将其输出连接到 Lucene 进行搜索。它是纯Java。
Heat 在关于 OCR 的研究上做了很多工作,看看这个