2

对于 OCR 程序,我在分割连接或重叠的文本时遇到问题。我正在处理 Times New Roman 字体。在这种字体中,fb、fh、fi、fj、fk、fl 等字母在顶部相互连接。(见下图)。这主要出现在衬线字体中。

Times New Roman字体中加入的字母和分水岭算法的结果: 在此处输入图像描述

显然,轮廓检测会给这两个字母一个单一的分割。所以,我尝试了分水岭算法。正如您在上图中看到的,它确实检测到了重叠,但我发现了另一个问题本身。字母“f”的薄部分也被分成另一个部分,但我想要整个“f”。我知道这是因为我使用的标记。(见下文)

我用于分水岭的标记:

在此处输入图像描述

另外,有谁知道如何检测字母是否重叠,以便我可以将分水岭算法仅应用于重叠部分。

那么如何解决这个问题呢?我是否使用正确的方法,即分水岭来解决这个问题?有谁知道更好的解决方案?

4

0 回答 0