java - 我们可以使用正则表达式在 Tesseract 中作为变量传递吗？

Question

我们可以通过正则表达式来提高 Tesseract 字符识别的准确性吗？例如，我们告诉 Tesseract 文本可以具有这种结构。

4characters2Digits[4Digits]3char4Digits2char

// 我们图像中的字符串是“abcd12[2222]aBc000AB”

// 我们的正则表达式可以是这样的

String reg = "[a-zA-Z]{4}\d{2}\[\d{4}\][a-zA-Z]{3}\d{3}[a-zA-Z]{2}";

我认为这种Tesseract对字符的识别会更好。

而且我们还可以设置

tesseract.setTessVariable("tessedit_char_whitelist", "0123456789[]abc...Z");

注意：我使用的是 Java 语言。苔丝4j

谢谢！

score 0 · Accepted Answer

0

您可以尝试bazaar模式，它支持 Regex 的有限子集。

于 2015-12-17T03:21:00.683 回答

1 回答 1