37

我正在开发一个项目,我必须开发 OCR 算法(我必须从图像中读取文本,然后将其转换为不同的语言)。所以我的第一个任务是从图像中获取文本。

完成第一个任务的步骤。

  1. 从给定源加载任何图像格式(bmp、jpg、png)。然后将图像转换为灰度并使用阈值进行二值化(Otsu 算法)。//完成(如何从输出图像中去除噪声???)

结果

输入图像

输出图像

  1. 检测图像特征,如分辨率和反转。这样我们就可以最终将其转换为拉直的图像以进行进一步处理。(完成了图像的旋转代码,但无法检测到我们必须旋转图像的图像角度,因此仍在进行角度检测部分)

  2. 线路检测和删除。这一步是为了改进页面布局分析,达到更好的下划线文本识别质量,检测表格等所需要的。(决定完成该部分在End)

  3. 页面布局分析。在这一步中,我试图识别图像中存在的文本区域。因此,只有该部分用于识别,而该区域的其余部分被排除在外。

  4. 检测文本行和单词。在这里,我们还需要注意不同的字体大小和单词之间的小间距。

  5. 字符的识别。这是OCR的主要算法;每个字符的图像都必须转换为适当的字符代码。有时该算法会为不确定的图像生成几个字符代码。例如,识别“I”字符的图像可以产生“I”、“|” “1”、“l”代码和最终字符代码将在稍后选择。

  6. 将结果保存为选定的输出格式,例如可搜索的 PDF、DOC、RTF、TXT。保存原始页面布局很重要:列、字体、颜色、图片、背景等。

所以我在第 6 部分需要帮助。我已经完成了行检测部分(从包含 n 行的段落中获取 n 个图像),但在下一部分获取单词和字符识别时卡住了。如果您知道与 OCR 和字符识别部分相关的良好链接,请发布这里。

对于字符识别,我正在考虑使用 asprise(Java 库)http://asprise.com/product/ocr/index.php?lang=java

4

4 回答 4

18

要检测旋转角度,请使用霍夫变换

对于降噪,将没有相邻像素(北、东、南或西)的任何像素替换为相同颜色(相似颜色,使用容差阈值),用相邻像素的平均值。

搜索用于布局检测的垂直空白间隙。沿垂直间隙切片。对于每个切片,现在搜索水平间隙并切片。如果切片具有相同(相似)的高度,则您处于线级。否则重复垂直/水平切片,直到只剩下线条。最后一步是垂直切片,为您提供单个字符(或在某些情况下为连字)。长而窄或短而宽的切片是线条。

将字符切片与字符库进行比较。如果性能不是主要关注点,请尝试在不同的字体库中查找字符,直到您可以识别所使用的字体。然后坚持使用该字体进行字符识别

在原始图像中,将每个字符替换为背景颜色,这是通过为字符的每个像素插入不属于字符的像素来确定的。如果有的话,这会给你背景图像

于 2013-06-14T02:58:33.870 回答
5

你应该使用自适应阈值而不是 Otsu 方法。我认为这会有所帮助http://www.csse.uwa.edu.au/~shafait/papers/Shafait-efficient-binarization-SPIE08.pdf 这种方法会自动删除噪音。

于 2014-06-15T15:35:01.373 回答
3

您可能想查看Tesseract的字符识别部分。

于 2013-06-14T03:05:44.390 回答
1

您可以使用 potrace 来减少噪音它将给定的图像(bmp)矢量化并将其转换为 svg、pdf 和一些其他格式

http://potrace.sourceforge.net/potrace.html

于 2014-11-18T12:50:07.377 回答