0

我正在做一个需要我从商品交易所获取价格的项目。不幸的是,交易所没有可让我从交易屏幕获取价格的网络服务或其他插件。

我想我可以自动截取价格并将所有价格分成单独的图像。之后,我使用用于 Tesseract 3.0.2 的 Pytesser V 0.0.1 库结合 Python v2.7 中的 Pillow 3.1.0 处理它们。然而,图像到文本的转换(通过 image_to_string 函数)是戏剧性的,因为在大多数情况下,0 变成 o 或 5 变成 s,有时转换是随机的,这使得仅替换这些字符变得困难。我已经将图像调整为更大的尺寸并使用了抗锯齿,但结果并没有变得更好。有没有办法将字符集限制为仅数字和小数点?以及如何提高转换质量?

也许我的方法太乏味了,你们知道更好的方法吗?感谢您的帮助:)

4

1 回答 1

0

有没有办法将字符集限制为仅数字和小数点?

是的!使用包pyslibtesseract

from pyslibtesseract import TesseractConfig, PageSegMode
config_line = TesseractConfig(psm=PageSegMode.PSM_SINGLE_LINE)
config_line.add_variable('tessedit_char_whitelist', '0123456789.')

以及如何提高转换质量?

您需要使用OpenCV来提高图像质量。

于 2016-01-24T08:36:20.980 回答