3

Tesseract setVariable 白名单适用于英语,例如我用它来识别图像中的数字和字母(不包括特殊字符 &*^%!等)

_ocr.SetVariable("tessedit_char_whitelist",
"0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ");

但我不能对泰语做同样的事情

_ocr.SetVariable("tessedit_char_whitelist","0123456789กขคงจฉ");

有不同的原理吗?因为这不起作用。我在输出中只收到数字,而不是所有确定的字符,tesseract 忽略了我放入白名单的所有泰文字母。

如何正确传递此变量?

4

1 回答 1

2

您可能需要先使用泰语的语言包...请参阅此处的下载列表https://code.google.com/p/tesseract-ocr/downloads/list

然后您需要在代码中将“eng”替换为“tha”,以使用新的语言数据进行 OCR

于 2013-12-04T02:37:40.480 回答