0

嗨,我刚刚在 .NET 中尝试了一个用于 OCR 的组件,结果非常不准确。以前有没有人走这条路?您能否为我推荐一条路径,以节省我评估许多产生不满意结果的组件的时间。

非常感谢任何建议。我不介意购买或自己编码。任何效果最好且具有成本效益的方法。

谢谢

4

3 回答 3

1

我们在项目中使用了Abby Fine Reader SDK。它带有一个 COM 对象,您可以在 .Net 应用程序中使用它。引擎的成功已经足够好了。

于 2009-04-08T08:45:45.357 回答
0

ABBYY 的组件非常昂贵。我评估了 Pegasus ImagXpress 和 Atalasoft DotImage,虽然我发现 DotImage 在整页 OCR 上更准确,但 ImagXpress 可以更好地阅读某些难以识别的小部分文本。我建议您尝试两者的演示版本,看看最适合您的需求。

于 2009-04-08T08:52:54.887 回答
0

有关替代引擎的信息,请参阅https://stackoverflow.com/a/18070183/852208 。

您的准确性问题可能与图书馆本身有关。但是,它更有可能是您正在使用的图像源。考虑以下提示

文本考虑

  • 不应在某些材料上尝试标准 OCR。例如,目前不应该
    在 1850 年之前发布的大多数文本上尝试使用默认设置的 OCR。对于某些语言(例如
    德语),截止日期可能更晚。在尝试
    通过 OCR 为这些材料创建转录之前,需要进行详细分析并经常进行实验来判断自定义 OCR 和键盘输入选项
    之间的权衡。
  • 必须以 RGB 模式扫描较旧和变色的文档,以捕获所有图像数据,并最大限度地提高 OCR 准确性。
  • 低对比度文档可能导致 OCR 不佳。
  • 打字稿的 OCR 比印刷字体差;字体和大小的不一致使用会降低 OCR 的准确性。
  • 原件中小于 6 磅的字体大小会限制 OCR,但将扫描图像的分辨率提高到 600 dpi 并使用灰度可能会改善 OCR 输出。
  • 无法以任何程度的准确度识别手写文件。

影响 OCR 准确性的扫描注意事项包括:

  • OCR 精度的推荐最佳扫描分辨率为 300 dpi。更高的分辨率不一定会带来更好的准确性,并且会减慢 OCR 处理时间。低于 300 dpi 的分辨率可能会影响 OCR 结果的质量和准确性。
  • 亮度设置过高或过低都可能对 OCR 准确性产生不利影响。在大多数情况下,50% 的中等亮度值将是合适的。
  • 初始扫描的直线度会影响 OCR 质量;弯曲的文本行会产生较差的结果。
  • 必须以 RGB 模式扫描较旧和变色的文档,以捕获所有图像数据,并最大限度地提高 OCR 准确性。
  • 图像增强功能(例如对比度调整和模糊蒙版)并未显示可显着提高 OCR 的准确性。
于 2013-08-06T01:00:49.307 回答