我正在尝试在此图像上使用 tesseract:
当我使用默认配置时:
tesseract image.jpg stdout
它返回\KD FWOW
。
如您所见,唯一的错误是第一个字母L
被识别为反斜杠
因此,我/usr/share/tesseract-ocr/tessdata/configs
使用以下设置创建了一个配置文件:
tessedit_char_whitelist ABCDEFGHIJKLMNOPQRSTUWXYZ
目标是只识别字母,而不是特殊字符。但是,当我使用此配置运行 tesseract 时:
tesseract image.jpg stdout letters
结果是XKD FVOIV
,现在它缺少一个以上的字符,主要是 'W'。
这对我来说毫无意义,我不明白为什么它在白名单上时停止识别 W。当然,我在配置中遗漏了一些东西。
我该如何解决?