1

您好我正在尝试使用 OCR tesseract 来识别图像中的一些字母。

我使用 imagemagick 进行了转换,图像似乎不错,但还不够

原始图像:

在此处输入图像描述

与 imagemagick 一起使用的命令来转换

convert input.jpg -fuzz 50% -fill black -opaque black -bordercolor white -border 2 -fill black -draw "color 0,0 floodfill" -alpha off -negate -units pixelsperinch -density 72 output.jpg

结果图像:

在此处输入图像描述

OCR 正方体命令:

$ tesseract output.jpg out -psm 7

输出/结果:

文本:AUGU -> AUOU

Tesseract Open Source OCR Engine v4.00.00alpha with Leptonica Page 1

文本:VEGU -> VOR-OU

Tesseract Open Source OCR Engine v4.00.00alpha with Leptonica Page 1

文本:EGUV -> E6UV

Tesseract Open Source OCR Engine v4.00.00alpha with Leptonica Page 1

文本:USEA -> USSOEA

4

1 回答 1

0

不确定这是否纯粹是运气,因为您只提供了一张图片进行测试,但我注意到您使用的是嘈杂/模糊的 JPEG 而不是干净的 PNG,所以我将您的图片阈值设置为 50% 并制作了一个 PNG并且它可以正确识别所有四个字母:

convert yourImage.jpeg -threshold 50% clean.png
tesseract -psm 7 clean.png out
于 2017-07-05T09:33:36.650 回答