c# - 如何设置 Tesseract 2 在 C# 中读取单个字符？

Question

我在 C# 中编写了一个简单的 OCR，并使用 tesseract 2.0

在我的程序中，我只会识别大写字母。

出于这个原因，我使用：

Tesseract ocr = new Tesseract();
ocr.SetVariable("tessedit_char_whitelist", "ABCDEFGHIJKLMNOPQRSTUVWXYZ");

所以此时我将传递一个大写字母的图像。它工作得很好，但有时它会返回给我一个带有两个字母的字符串。

Input:
R
Output:
FE

现在我需要知道如何将页面分割模式设置为“单字符”。以改善结果。

任何人都知道如何在 C# 中使用 tesseract 2 做到这一点？

因为在 Tesseract ocr 对象中我只有 SetVariable 方法。在 iOS apis 中有这种方法可以做到这一点：

setPageSegMode(TessBaseAPI.PSM_SINGLE_CHAR);

任何人都可以帮助我吗？

score 2 · Accepted Answer

PSM 仅在 Tesseract 3.0x 中可用；因此，您需要一个兼容的 .NET 包装器。https://github.com/charlesw/tesseract有一个。

1 回答 1