c# - 从图像中提取的文本不正确以及如何改进 C# 的 tesseract-ocr 3.0？

翻译自：https://stackoverflow.com/questions/20424153 2013-12-06T12:39:41.377

1043 次

我在.NET 中使用 tesseract-ocr-setup-3.02.02.exe 从图像中提取文本时遇到问题我从这里使用了简单的 yatt 类（yatt / tesseract-ocr-class.cs）

我已经从这里下载并安装了 esseract-ocr-setup-3.02.02.exe 然后像这样在 C# 中使用 yatt 类

        TesseractOCR ocr = new TesseractOCR(@"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe");          
        using (Bitmap bmp = new Bitmap(@"C:\ocr\cap.jpg"))
        divOCRText.InnerHtml = ocr.OCRFromBitmap(bmp);

它从图像中提取文本，但有很多 2 个问题。提取的文本有很多拼写错误。有人可以指导我我做错了什么吗？

这是 OCR 的图像

在此处输入图像描述

提取的文本（截图）

在此处输入图像描述

这是我的电脑中安装的测试数据

在此处输入图像描述

c# - 从图像中提取的文本不正确以及如何改进 C# 的 tesseract-ocr 3.0？

0 回答 0

Related

Reference