我有一个应用程序需要从图像中一个一个地分离日文字符。
输入:一张带有一行日文文本的图像。它可以有半角片假名、半角数字、全角片假名、平假名和数字。也许半角或全角英文字符也是如此。(让我们暂时忘记英文字符)
问题:我可以通过使用自适应阈值、膨胀和腐蚀轻松分离出字符。但是有一个大问题。
一些日文字符之间有一个空格。比如川、体、休、非。因此,仅仅查看垂直的白色间隙并没有帮助。找到宽度也无济于事,因为可以有全角字符(2btyte)或半角字符(1byte)。我似乎需要一种精致的方式来做到这一点。
知道我应该如何进行吗?任何想法都是个好主意:)
这是几个示例图像。(红圈为有问题的)