python-3.x - 使用 tesseract image_to_string 函数传递单词列表或模式

翻译自：https://stackoverflow.com/questions/42615862 2017-03-06T00:38:50.327

326 次

1

我正在尝试使用 python 开发我的第一个 ocr 项目。我也是 Python 的新手。

我正在使用 OpenCV 3 和 Python 3.6。我正在尝试从文档中进行 OCR。

使用 OpenCV，我已将图像转换为白色背景和黑色文本。它可以很好地读取大部分图像。但为了提高准确性，我想将模式列表传递给 OCR 引擎。

这可能与 pytesseract 吗？

例如，我正在尝试提取客户 ID，并且可能只有少数客户 ID，我可以提供这些客户 ID 的列表以提高准确性。

与日期相同，我知道它始终采用特定的日期格式，如果我可以提供日期格式以提高准确性......

这些都有可能吗？如果是的话，有人可以建议我怎么做吗？

我试图搜索堆栈溢出和谷歌，但找不到太多帮助。

任何指导或方向都会有所帮助......

0 回答 0