我正在使用 pytesser 从 C-SPAN 中提取投票信息,但我几乎是一个 OCR 新手。
我现在从一个屏幕截图开始。我首先将图像变成黑白,反转颜色,然后最大化对比度。以下是图像处理前后的链接:http: //imgur.com/a/jnKRZ
现在我运行 pytesser:
from pytesser import *
image = Image.open('cspantest1.tif') # Open image object using PIL
print image_to_string(image) # Run tesseract.exe on image
结果好坏参半:
ON BROUN O~F~GE0R~GIA'T.;,v I
MOTION TO INSTRUCT
CONFEREES ; ij h;~J I
~ I IF
I II, [I; I
H n Iaaae
I I I I` 4*4
, ' I *~ -'~YEA ^-NWY,PRE5 NV
RERUBLICAN I; 82 145 15. II
DEM`OC~F}7\EpF "` ;`1~78-V 4~ ~*v12
_;'~ INDEPENDENT S! It I 2
~YI`a.a:1i- > *-},,5
TOTAL`S 82 323 27
TIME REMAINING 0:00 ..
"W.. .. g I
. "f' z-;A
I .
关键数据、所有数字和计时器都在那里,但我认为必须有更好的方法来做到这一点。为训练文件构建每个单独字符的库?限制允许字符的范围?
最终,我想自动化整个图像处理和 OCR 过程。如果有人有清理此问题的提示,我将不胜感激。