我是计算机视觉世界的新手。
我正在尝试使用 Tesseract 检测写在卡车侧面的数字。
所以对于这个例子,我希望看到 CMA CGM 作为输出。
我通过命令行将此图像提供给 Tesseract
tesseract image.JPG out -psm 6
但它产生了一个空白文件。
然后我阅读了Tesserocr(Tesseract的python包装器)的文档并尝试了以下代码
with PyTessBaseAPI() as api:
api.SetImage(image)
boxes = api.GetComponentImages(RIL.TEXTLINE, True)
print 'Found {} textline image components.'.format(len(boxes))
for i, (im, box, _, _) in enumerate(boxes):
# im is a PIL image object
# box is a dict with x, y, w and h keys
api.SetRectangle(box['x'], box['y'], box['w'], box['h'])
ocrResult = api.GetUTF8Text()
conf = api.MeanTextConf()
print (u"Box[{0}]: x={x}, y={y}, w={w}, h={h}, "
"confidence: {1}, text: {2}").format(i, conf, ocrResult, **box)
再次它无法读取图像中的任何字符。
我的问题是我应该如何解决这个问题?(我不是在寻找现成的代码,而是在寻找如何解决这个问题的方法)。
我是否需要使用示例图像来训练 tesseract,或者我可以使用现有库编写代码以某种方式检测卡车的坐标并尝试仅在卡车的边界内进行 OCR?