c# - c# OCR 无法识别数字（tesseract 2）

Question

我正在尝试从以下内容中提取数字：

它失败了，我得到一个〜作为回报。我正在使用谷歌的 tesseract 2，使用 C#（开源 c# 包装器），现在我想知道，这张图片是否太糟糕而不能用于 OCR？

因为恕我直言，数字很清楚。

您是否有任何其他 OCR 引擎可以解决这个问题？

编辑

我也尝试过使用Asprise OCR（http://asprise.com/product/ocr/selector.php），但它也无法解析图像......

score 7 · Accepted Answer

我建议调整大小。我在 IE 中将此页面放大到 200%，截取屏幕截图，将其打印为 PDF 并将其导入到我使用 tessnet 的程序中。苔丝成功了！除非我读错了#s :-)

虽然信心 = 140（如果您想知道，最好低于 100）。当然，当我尝试原始尺寸时，我没有得到〜；我得到了大约 1/2 的 #s 正确，一堆字母和其他垃圾。不够好，但更好。

t2 似乎喜欢一定尺寸的图像。

我的程序进行处理以使其正常工作。建议使用 .net GDI+ 转换为 32 位，使用插值模式高质量双三次调整大小。这似乎有点“填补空白”。

使用有效的尺寸 - 我发现，太大或太小，并且 tesseract 表现不同。

这两个问题都是预处理，这很容易，你会尝试 tesseract；但是，我知道如何调整大小和插值；我不知道如何进行 OCR！所以我愿意和解。

score 1 · Accepted Answer

您的图像分辨率太低——96 DPI，可能是屏幕截图。将其重新缩放到 300 DPI，tessnet2 应该能够识别它。

2 回答 2