我的问题是关于使用 OCR 从图像中的表中提取数据的这篇文章。
我正在使用tesseract
将表格图像转换为文本。除了不保留表格的格式外,这很好用。一种解决方案是用一些字母替换列,这些字母tesseract
会识别并欺骗它把表格当作一些文本。
我使用以下代码绘制“QQ”的列
im=Image.open("file.png")
draw = ImageDraw.Draw(im)
font=ImageFont.truetype("/usr/share/fonts/gnu-free/FreeSerifBold.ttf",12)
by = font.getsize("S")[1]
col = [240,480]
px = []
for y in range(0,im.size[1],by):
for x in col:
draw.text((x,y),"QQ",font=font,fill=0)
im.save("res-file.png")
im.show()
问题是 tesseract 甚至可以识别 QQ。我也是在空白页写QQ栏,tesseract不认识。
有没有办法使用 tesseract 将此表以 png 格式转换为文本?有什么东西让我逃脱了吗?