我是 tesseract 的新手,在尝试使用外部训练的数据集时出现此错误。
tesserocr.pyx in tesserocr.image_to_text (tesserocr.cpp:20994)()
RuntimeError: Failed recognize picture
我不知道如何解决它。问题出在外部库上,但除此之外,我不知道。任何指导表示赞赏。
我在带有 Tesserocr 包装器的 Ubuntu 16.04 LTS、x86_64、Python 2.7 上。外部库来自:https ://github.com/arturaugusto/display_ocr 。
我刚刚将letsgodigital.traineddata文件粘贴到:
/usr/share/tesseract-ocr/tessdata
代码:
import tesserocr
image = Image.fromarray(im)
print tesserocr.image_to_text(image, lang = 'letsgodigital', psm=8, )
语言检查
print tesserocr.get_languages()
(u'/usr/share/tesseract-ocr/tessdata/', [u'letsgodigital', u'equ', u'osd', u'eng'])
使用默认英文库运行代码有效
print tesserocr.image_to_text(image, lang = 'eng', psm=8, )
正方体版本信息:
tesserocr.tesseract_version()
u'tesseract 3.04.01\n leptonica-1.73\n libgif 5.1.2 : libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8 : libwebp 0.4.4 : libopenjp2 2.1.0\n'