我正在尝试使用 python 开发我的第一个 ocr 项目。我也是 Python 的新手。
我正在使用 OpenCV 3 和 Python 3.6。我正在尝试从文档中进行 OCR。
使用 OpenCV,我已将图像转换为白色背景和黑色文本。它可以很好地读取大部分图像。但为了提高准确性,我想将模式列表传递给 OCR 引擎。
这可能与 pytesseract 吗?
例如,我正在尝试提取客户 ID,并且可能只有少数客户 ID,我可以提供这些客户 ID 的列表以提高准确性。
与日期相同,我知道它始终采用特定的日期格式,如果我可以提供日期格式以提高准确性......
这些都有可能吗?如果是的话,有人可以建议我怎么做吗?
我试图搜索堆栈溢出和谷歌,但找不到太多帮助。
任何指导或方向都会有所帮助......