1

我目前正在开发用于日语单词和汉字的多语言在线词典。我目前的问题是为表达式、句子和单词中的汉字复合词生成假名。我在每种情况下都有可用的假名和汉字阅读(分开),但我没有可靠的算法来工作,它根据假名阅读为每个汉字复合生成读数。
我不需要每个汉字的准确读数,根据我所拥有的数据,这显然是不可能的,但应该可以确定所有汉字复合词的读数,因为我有完整的句子/单词/假名表达。

我有:汉字=私は学生です
假名=わたしはがくせいです

我想自动分配
私给わたし

学生给がくせい。

我试图遍历汉字字符串并检查假名和汉字之间的字符是否“变化”,并一直查找到假名字符串中的这个位置。这种方法适用于所有没有汉字后跟一个平假名音节的句子,这与汉字的阅读结束相同。
我的另一个想法是从假名中的汉字字符串中替换所有平假名复合词,并将左侧的假名复合词作为汉字的读数。这显然不适用于每种情况。

我怎样才能编写这样一个在每种情况下都有效的算法?

4

0 回答 0