string - 如何编写基于假名阅读为日文汉字生成假名阅读的算法

问问题 2021-04-17T19:53:11.363

61 次

我目前正在开发用于日语单词和汉字的多语言在线词典。我目前的问题是为表达式、句子和单词中的汉字复合词生成假名。我在每种情况下都有可用的假名和汉字阅读（分开），但我没有可靠的算法来工作，它根据假名阅读为每个汉字复合生成读数。
我不需要每个汉字的准确读数，根据我所拥有的数据，这显然是不可能的，但应该可以确定所有汉字复合词的读数，因为我有完整的句子/单词/假名表达。

我有：汉字=私は学生です
假名=わたしはがくせいです

我想自动分配
私给わたし
和
学生给がくせい。

我试图遍历汉字字符串并检查假名和汉字之间的字符是否“变化”，并一直查找到假名字符串中的这个位置。这种方法适用于所有没有汉字后跟一个平假名音节的句子，这与汉字的阅读结束相同。
我的另一个想法是从假名中的汉字字符串中替换所有平假名复合词，并将左侧的假名复合词作为汉字的读数。这显然不适用于每种情况。

我怎样才能编写这样一个在每种情况下都有效的算法？

string - 如何编写基于假名阅读为日文汉字生成假名阅读的算法

0 回答 0

Related

Reference