我正在尝试对火车或卡车等车辆进行 OCR,以识别写在上面的数字和字符。(请注意这不是车牌识别 OCR)
我拍了这张照片。这个想法是能够提取文本 - BN SF 721 734 写在上面。
对于预处理,我首先将此图像转换为灰度,然后将其转换为看起来像这样的二值化图像
我在 tesseract 中写了一些代码。
myimg = "image.png"
image = Image.open(myimg)
with PyTessBaseAPI() as api:
api.SetImage(image)
api.Recognize()
words = api.GetUTF8Text()
print words
print api.AllWordConfidences()
这段代码给了我一个置信度值为 95 的空白输出,这意味着 tesseract 有 95% 的信心认为该图像中不存在任何文本。
然后我在 Tesseract 中使用 setrectangle api 来限制图像中特定窗口的 OCR,而不是尝试对整个图像进行 OCR。
myimg = "image.png"
image = Image.open(myimg)
with PyTessBaseAPI() as api:
api.SetImage(image)
api.SetRectangle(665,445,75,40)
api.Recognize()
words = api.GetUTF8Text()
print words
print api.AllWordConfidences()
print "----"
坐标 665、445、75 和 40 对应于图像中包含文本 BNSF 721 734 的矩形。665 - 顶部,445 - 左侧,75 - 宽度和 40 - 高度。
我得到的输出是这样的:
an s
m,m
我的问题是如何改进结果?我玩弄了 setrectangle 函数中的值,结果略有不同,但都同样糟糕。
有没有办法改善这一点?
如果您对我如何将图像转换为二值化图像感兴趣,我使用 OpenCV
img = cv2.imread(image)
grayscale_img = cv2.cvtColor(img, cv2.COLOR_RGB2GRAY)
(thresh, im_bw) = cv2.threshold(grayscale_img, 128, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)
thresh = 127
binarized_img = cv2.threshold(grayscale_img, thresh, 255, cv2.THRESH_BINARY)[1]