1

我正在尝试完成一个必须包含一些 OCR 的项目。对于这项工作,我选择了 Tesseract OCR,但结果并不是最优的。我试图将字符集限制为1234567890-但结果并不好。是否有我可以使用的最佳图像尺寸或某种方法来训练 Tesseract 更好地识别这种字符串?

图像是这样的:电话

并且 tesseract 返回的结果是 05175150152 这是不对的,应该更好,因为图像没有以任何方式修改。我通过 PHP 使用 tesseract 和 exec 并使用以下命令:

"C:\Program Files\Tesseract-OCR\tesseract.exe" C:\wamp\www\a
dwords\phones\center_ctl09_ctl04.png sssd -l eng -psm 7 nobatch letters

关于我做错了什么的任何想法?

4

1 回答 1

3

96 DPI 的图像分辨率对于任何 OCR 引擎来说都很难。尝试将其重新缩放到 300 DPI,您将获得更好的结果。

此外,JPEG 是一种有损图像格式。如果可能,请使用不同的格式,例如 TIFF 或 PNG。

于 2012-05-12T20:47:46.767 回答