我们可以通过正则表达式来提高 Tesseract 字符识别的准确性吗?例如,我们告诉 Tesseract 文本可以具有这种结构。
4characters2Digits[4Digits]3char4Digits2char
// 我们图像中的字符串是“abcd12[2222]aBc000AB”
// 我们的正则表达式可以是这样的
String reg = "[a-zA-Z]{4}\d{2}\[\d{4}\][a-zA-Z]{3}\d{3}[a-zA-Z]{2}";
我认为这种Tesseract对字符的识别会更好。
而且我们还可以设置
tesseract.setTessVariable("tessedit_char_whitelist", "0123456789[]abc...Z");
注意:我使用的是 Java 语言。苔丝4j
谢谢!