php - 使用 Tesseract 进行 OCR 读取电话号码

Question

我正在尝试完成一个必须包含一些 OCR 的项目。对于这项工作，我选择了 Tesseract OCR，但结果并不是最优的。我试图将字符集限制为1234567890-但结果并不好。是否有我可以使用的最佳图像尺寸或某种方法来训练 Tesseract 更好地识别这种字符串？

图像是这样的：

并且 tesseract 返回的结果是 05175150152 这是不对的，应该更好，因为图像没有以任何方式修改。我通过 PHP 使用 tesseract 和 exec 并使用以下命令：

"C:\Program Files\Tesseract-OCR\tesseract.exe" C:\wamp\www\a
dwords\phones\center_ctl09_ctl04.png sssd -l eng -psm 7 nobatch letters

关于我做错了什么的任何想法？

score 3 · Accepted Answer

96 DPI 的图像分辨率对于任何 OCR 引擎来说都很难。尝试将其重新缩放到 300 DPI，您将获得更好的结果。

此外，JPEG 是一种有损图像格式。如果可能，请使用不同的格式，例如 TIFF 或 PNG。

1 回答 1