image-processing - 即使是高质量图像，Tesseract 也无法识别字符

Question

我正在使用 leptonica 进行清理和图像处理，然后将其传递给 tesseract 进行 OCR。但是，即使图像质量很高，它也无法识别字符。图像规格如下。

1 bpp, uncompressed, 1280 * 960 , 300dpi horizontal and vertical resolution

以下是我使用 leptonica 依次进行的图像处理操作

pixConvertTo8
pixBackgroundNormSimple
pixOtsuAdaptiveThreshold
pixContrastTRC {Regarding this - I am passing high values like 1.0 or even 5.0 but image doesnt really change}
pixFindSkew
pixRotate { rotate by angle found by pixFindSkew}
pixRotate90 {do this 4 times to read image in all 4 orientations}
pixClipRectangle {crop image}
Finally tesseract command

我在输出中得到垃圾字符。示例输入图像如下。在此处输入图像描述

我得到的输出如下

Final K-1
II]
s h d | K-1 ,.,
(FÂ°o.~?nâ€˜i&1) 5/>.Â©12 mm E2â€˜;
Deparlrnenl of tho Treasury , ,
I 1 I l I
â€˜mama, Ravenuo SGMW For cnlundm your 201), â€˜ " Â°FÂ°$ "'100fTIO
or lax yum boqmnnnq 7 _ 20\Q_
â€˜ 7660
and ondmg _  W vv I go
Beneï¬ciary's Share of Income, Deductions,
cl'editS, etc. F 800 buck 01 loam nnd lnstruoï¬‚onsÂ»
___lnformatI0n About mo Estate or Trust
â€˜ Ordmary d|v|dm
i 12113
 _
â€˜; Quahfmd dlVIdG
\ 8132
3 1
Net shun-term
A Estate's at trust's omgiuym ldonnlmnluon numbol
56-0987654
B Estate's u trustâ€˜: namo
ESTATE OF MARTHA SMITH
0 FiducÂ§ary's name, address, clly, smluâ€˜ and /IP codo
N01 long~lerm c
\ 24043 
u 
â€˜ 28% vale gann
Ti
Unreptumd 5
Omar porï¬‚oho 4
nonbuslness lï¬‚l
/\..4........ L. ._.._ ,.

我应该怎么做才能提高准确性。

第2部分：

我尝试点击此链接。并创建了一个 eng.user-words.traineddata 文件和 bazaar.train 文件，并尝试使用“bazaar”作为附加参数运行。但我得到“read_params_file：无法打开集市错误”。有什么建议么？

score 1 · Accepted Answer

对于第一部分，

我不知道您在此处发布的图像是否是您尝试扫描的实际图像，但是当我尝试时，我得到了：-

财政部国税局

对于 cnlundm 你的 V019, 1 ' '"l0T°5' |nC0m0

或税山药 boqlnnlnq , 2o12_ ' 7660 和 ondlng 我去 2: ' 普通 dlvndm " "T ' x 12113

1个；合格 dwnda ' 8132 Netshun-term:

M 不长~terrn c

i 24043 Ab ' 2896 拉拉甘

受益人的收入份额、扣除额、Cfedits 等 5 800 back oi form nnd Instruc?ons

| Partl 关于州或信托的信息

A Estate 或 IvLsl 的 omuoym Idonnlncnluon numhu

56-0987654

8 遗产'：信托'：namo

玛莎·史密斯庄园

M: 无言以对 5

017161 portioho : nonbuslness Inl

C 受托人的姓名、地址、城市、smlul an-(V1/If' Eooo

这不是很好，但它似乎比你得到的要好一些。我在 Windows 上使用 Tesseract v3。我的基本命令是：

-    tesseract.exe  nnm.tif  nnm

对于第二部分，

您的bazaar文件应该在configs文件夹中

 .....\Tesseract-OCR\tessdata\configs\bazaar

并且有一些要求以特定格式保存它，例如UTF8只有 aLF在行尾而不是 a CR + LF，它似乎对文件格式非常挑剔。

您可以从http://code.metager.de/source/raw/google/tesseract-ocr/tessdata/configs/bazaar获取它的副本

我制作了一个数字配置文件，用于扫描一些我只对数字感兴趣的图像，并且效果很好：

-   tesseract.exe  scanfile.jpg  scanfile  digits

的文档Tesseract很差，并且在 PC 上无法正常工作。

score 0 · Accepted Answer

对于第一部分，

我认为您应该考虑 Capture2Text 完成的预处理。它同时使用 Leptonica 和 Tesseract 对图像进行 OCR。

我不确定第 2 部分。

image-processing - 即使是高质量图像，Tesseract 也无法识别字符

2 回答 2

Related

Reference