1

我最近按照一些教程来设置 Tesseract,现在我正在尝试查看 OCR 是否正常工作。当我拍照并获取文本时,有时会收到非英文字符。它实际上看起来像胡言乱语。我在下面发布了一个输出示例:

 ; .'—--~_~:~ ear
 .::§—‘.::~__>‘Z~r'.‘ ,::-SES‘:3£a"3'§_“5.E.~ °?®.=_-
 .—_;%~‘=*c§u-5; H =—oc+-»o cn-5 '55:.

我拍的照片是此链接中研究文章的第一页。我不确定为什么会这样。我在 tessdata 子目录中也有 eng.traineddata 文件。

4

1 回答 1

1

我想到了两件事:

  • 为图像中使用的字体训练 tesseract
  • 事先编辑图像
    • 灰度
    • 调整大小
    • 扩张
    • 平滑
    • 高斯模糊
    • ... 等等

对于编辑,我可以推荐ImageMagic

于 2013-07-23T06:48:06.597 回答