java - 苔丝二 OCR 不工作

Question

我试图在 android 上使用 tess-two 从图像中获取文本。

但它给了我一个非常糟糕的结果

01-16 12:00:25.339: I/Tesseract(native)(29038): Initialized Tesseract API with language=spa

并且像 30 秒后它显示为结果字符串：

{ga
 .,
r¿
 y“: A
  r M í
:3 
'  ‘Ev’.-:.. -: A 7
 » w- ?" _
 Á.» ¿"A ¿rw-V r
 mjÏfn 'n’n . Y
' "\'ZA".‘.¡ A‘ :‘ïvAv- « ‘
:"Éf‘Ï'" -Ï«l :‘,.v:...»- .
 ' RFI' .. ’ g)" 3;:- 1-;4',
= * ¿,arifgggk mw; .1.  ,
'  "53» "J
't‘ ‘ ¿Las ;.‘».L',-‘»
 ' '  'N‘“ "“=: - '. V  .  ‘9!
5.? ' “F a .“ 
Y , <_  7- . 7.-, .
;«  z "1:;2wr . A - . ' -»‘ 5“:
“4-”, ¿rn 73:33: w v'.‘ ¿a ‘ A ,z, v VA
...,,« ' 'Q ' ‘ 4 214€. 5 . AV ¿JL y .13:
1  » . 21mm; » ¿ati-“ﬂ ¿ab-1377*“ w”
. x ‘ ‘ ú  F v'v: 
1 . ' . ; (“ya  í .

当然那是不正确的，我正在使用这张照片：在此处输入图像描述

我已经尝试了很多次，总是相似的结果。

有什么问题，这是我使用 tess-two 的代码

    TessBaseAPI baseApi = new TessBaseAPI();
    baseApi.init("/mnt/sdcard/external_sd/tess/", "spa",TessBaseAPI.OEM_TESSERACT_ONLY);
    baseApi.setImage(bitmap);
    String recognizedText = baseApi.getUTF8Text();
    Log.d("Texto leido", "texto: "+recognizedText);
    baseApi.end();

这就是我从文件中获取位图的方式

    BitmapFactory.Options options = new BitmapFactory.Options();
    options.inPreferredConfig = Bitmap.Config.ARGB_8888;
    Bitmap bitmap = BitmapFactory.decodeFile(photopath.getAbsolutePath(), options);

我在图像视图上使用该位图，它似乎是正确的，所以我找不到它为什么工作得那么糟糕。

任何的想法？

score 2 · Accepted Answer

此处更改图像文本语言的语言代码。

例如：如果您想要英文文本识别，则使用“eng”，或者使用西班牙语作为“spa”

1)

   TessBaseAPI baseApi = new TessBaseAPI();
        baseApi.init("/mnt/sdcard/external_sd/tess/", "eng");
        baseApi.setImage(bitmap);
        String recognizedText = baseApi.getUTF8Text();
        Log.d("Texto leido", "texto: "+recognizedText);
        baseApi.end();

2）从此处下载语言包文件，您必须下载 osd.traineddata.zip 文件和 tesseract-ocr-3.01.eng.tar.zip（此处为英语为 eng，为西班牙语为 spa 等）文件粘贴到 assets 文件夹中。

3）设置位图之前转换为灰度图像位图

java - 苔丝二 OCR 不工作

1 回答 1

Related

Reference