任何人都知道 python/ruby 中的一个库,可以分析图像并在其中提取文本?
或者一本关于图像处理等的书...
PS:文本采用各种字体和格式,但清晰,Tl;博士:没有验证码或类似内容。
任何人都知道 python/ruby 中的一个库,可以分析图像并在其中提取文本?
或者一本关于图像处理等的书...
PS:文本采用各种字体和格式,但清晰,Tl;博士:没有验证码或类似内容。
你可以使用OpenCV,一个开源的计算机视觉库,它有 Python API。它现在被认为是一个行业标准库。
OpenCV 官方网站: http: //opencv.org/
如果您需要一些有关 OpenCV-Python 的教程,请访问:opencvpython.blogspot.com
您还可以查看此 SOF:OpenCV-Python 中的简单数字识别 OCR
除此之外,OpenCV 示例还有一些 OCR 实现。
但我建议您将Tesseract 用于 OCR。它是最好的开源 OCR 引擎,由 HP 开发,但现在由 Google 处理。
正方体网站:https ://github.com/tesseract-ocr/tesseract
tesseract、Pytesser的Python API :https ://github.com/RobinDavid/Pytesser
还要检查这个 SOF:如何在 Tesseract 和 OpenCV 之间进行选择?
因此,您可以使用 OpenCV 对图像进行预处理,并使用 Tesseract 进行 OCR。