5

我正在尝试在 C# 中使用 Tesseract 引擎来使用 Tessnet2。对于我提供给 Tessnet2 的许多测试图像,输出非常糟糕,几乎没有任何内容是正确的。

这是我在 C# 控制台项目 Program.cs 类中的代码:

 static void Main(string[] args)
    {
        try
        {
        Bitmap image = new Bitmap(@"C:\Users\hp\Desktop\eurotext.tif");
        var ocr = new Tesseract();

        //when I tried to add the SetVariable(...), it didn't change the output much

        ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", true);

        var result = ocr.DoOCR(image, Rectangle.Empty);
        foreach (Word word in result)
            Console.WriteLine("{0} : {1}", word.Confidence, word.Text);

        Console.ReadLine();
    }
    catch (Exception exception)
    {
        Console.WriteLine("Error");
    }
}

例如,这是一个样本(大型二进制 300 dpi)测试图像“eurotext.tif”: 在此处输入图像描述

这是此图像的 Tessnet2 输出: 在此处输入图像描述

我一直在使用这个网站来学习使用 Tessnet2 的步骤: https ://code.msdn.microsoft.com/windowsdesktop/How-to-use-Tessnet2-library-716be12f

我使用这个网站尝试正确使用 SetVariable(...) 函数来让它做我想做的事,但没有运气,输出也没有太大差异: http ://www.sk-spell.sk.cx /tesseract-ocr-en

我找到了减少引擎错误的 Tesseract 指南: http ://code.google.com/p/tesseract-ocr/wiki/ImproveQuality

  • 它说“Tesseract 最适合使用 DPI 至少为 300 dpi 的文本”.. 此示例图像为 300 dpi

  • 该示例图像也是二进制的,应该可以提供更好的输出,正如许多人在各个网站上所建议的那样

我到处寻找可以提高准确性的解决方案,我发现许多帖子和人都有类似的问题,但没有有效的解决方案。

这个问题的原因可能是什么?我该如何解决?

我是这个主题的初学者,所以如果解决方案太琐碎,请多多包涵。

谢谢!

4

1 回答 1

4

要显示文本,您必须更改:

ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", true);

至:

ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", false);
于 2015-02-06T18:11:51.340 回答