12

我需要检查大量图片,看看它们是否有关键字。谁能推荐一个好的、可靠的 OCR 库?我很乐意为准确性牺牲速度。

4

2 回答 2

25

没有与准确性有关的纯 Java OCR 库。根据您的预算,您可以选择不是纯 Java,但可以从 Java 调用的东西:

  • 如果您有足够的时间但零预算 - 您的选择是 Tesseract。它绝对是开源中最好的
  • 如果您的预算很少,并且只需要运行一次此识别 - Cloud OCR API服务将是您的最佳选择。它基于领先的商业级 OCR 引擎,并提供相当实惠的每个项目价格。免责声明:我为 ABBYY 工作
  • 如果您需要将此识别作为持续的过程永远运行,那么您可能会认为购买专用转换软件在经济上更有效,例如这个,它具有 API 并且也可以从 Java 调用。但实际上有很多选择,如果你准备在许可上投入一些预算的话。
于 2013-07-24T07:35:01.627 回答
2

如果您有计划不识别拉丁或数字符号,那么更好的方法是找到非 java 库,但从一些(外部)工具中选择并使用其他方式(1)来获取您的文本。在 Linux 上,我通过命令行界面使用了 cuneiform(2)。

  1. 例如,命令行界面和管道。

  2. cuneiform 已移植到 Linux,但我不知道 Windows 的工作命令行界面

于 2013-07-24T07:49:43.940 回答