我对计算机视觉非常陌生。我有很多这样的图像:
我想将整个表格提取为文本。我试图pytesseract
从图像中提取文本。我尝试了如下示例代码:
try:
import Image
except ImportError:
from PIL import Image
from pytesseract import *
im = Image.open('/home/Downloads/b.png')
text = image_to_string(im, lang='eng')
print text
但结果真的很糟糕。一些样本:
II) Han H31 Precvsva 111
II) Pegalran Corn m
11) Quama camume. m
15) Sansmlg Eledra. KR
II) snaru Corn/Japan 11>
II) 15 msnlay Co 1111 KR
13)]ah1lC1rcuvl Inc us
II) Iaman Semioan... 1w
I1)Japan msulay Inc 11>
I1) Schneider Fleck... 511
II) campal Elec|ram 111
II) 5111-9110 onlme 5. JP
I1) C1500 syaens Inc us
Is) Warned Semic. 111
II) Mvcran Techmla. us
I1) Camnuler Sclenc
I1) Flex Lid us
I111me1 Corn 115
我怎样才能提高效率?我能达到 80-90% 的准确率吗?我所有的图像都是相同的格式。那么我可以提高我的用例的准确性吗?任何建议都会有所帮助。
更新:我尝试使用 OCR.space,但它根本不适用于以下图像: