opencv - 图像预处理 tesseract

Question

我正在为我关于数字图像处理的期末考试做名片扫描仪，我想问你我必须如何预处理名片的照片，以便 tesseract 可以识别文本。我尝试了很多东西，比如腐蚀、膨胀、阈值化，但我不能得到一个好的结果......你能帮我吗？

谢谢

马可

score 2 · Accepted Answer

如果您关心的只是文本识别而不是预处理，请考虑使用ScanTailor。它是一个优秀的预处理工具，并且是开源的。

如果你想自己实现预处理，你可能想看看这篇论文——尤其是歪斜校正和背景估计。这里描述的算法的结果很好。ScanTailor 使用其中的一些。

score 2 · Accepted Answer

我会推荐开源 C++ 图像处理库 OpenCV 与开源免费光学字符识别 (OCR) 库 tesseract 的组合。由于您的问题信息不是很具体，我可以一般地回答您的问题 OCR 中的主要程序是：

关于 tesseract 的几句话：图书馆有很多在线可用的信息。它是一个用于谷歌图书 OCR 目的的谷歌开源库。还可以处理图像中的布局分析，但在这方面并不完美，因此自己进行预处理并仅将 tesseract 用于真实字符识别部分可以带来更好的结果。如果您仍有疑问，或者我误解了您的问题，请随时提问。

2 回答 2