我正在开发一个项目,我必须开发 OCR 算法(我必须从图像中读取文本,然后将其转换为不同的语言)。所以我的第一个任务是从图像中获取文本。
完成第一个任务的步骤。
- 从给定源加载任何图像格式(bmp、jpg、png)。然后将图像转换为灰度并使用阈值进行二值化(Otsu 算法)。//完成(如何从输出图像中去除噪声???)
结果
检测图像特征,如分辨率和反转。这样我们就可以最终将其转换为拉直的图像以进行进一步处理。(完成了图像的旋转代码,但无法检测到我们必须旋转图像的图像角度,因此仍在进行角度检测部分)
线路检测和删除。这一步是为了改进页面布局分析,达到更好的下划线文本识别质量,检测表格等所需要的。(决定完成该部分在End)
页面布局分析。在这一步中,我试图识别图像中存在的文本区域。因此,只有该部分用于识别,而该区域的其余部分被排除在外。
检测文本行和单词。在这里,我们还需要注意不同的字体大小和单词之间的小间距。
字符的识别。这是OCR的主要算法;每个字符的图像都必须转换为适当的字符代码。有时该算法会为不确定的图像生成几个字符代码。例如,识别“I”字符的图像可以产生“I”、“|” “1”、“l”代码和最终字符代码将在稍后选择。
将结果保存为选定的输出格式,例如可搜索的 PDF、DOC、RTF、TXT。保存原始页面布局很重要:列、字体、颜色、图片、背景等。
所以我在第 6 部分需要帮助。我已经完成了行检测部分(从包含 n 行的段落中获取 n 个图像),但在下一部分获取单词和字符识别时卡住了。如果您知道与 OCR 和字符识别部分相关的良好链接,请发布这里。
对于字符识别,我正在考虑使用 asprise(Java 库)http://asprise.com/product/ocr/index.php?lang=java