3

我正在开发一些需要对日本语言进行分类的应用程序。

日文排序需要将片假名和汉字转成平假名,然后按照UTF-8编码进行排序。

平假名、片假名和汉字字符应组合在一起,并按平假名等效“拼写”排序。注意:使用平假名“字母”——a、i、u、e、o、ka、ki、ku、ke、ki 等。

现在要完成这项任务,我需要:

1.将日文字符分类为汉字或片假名或平假名。

2.将片假名和汉字转换为平假名。

3.应用基于语音(平假名)进行排序的算法。

应用程序数据库采用 UTF-8 格式。

现在执行第一步:“将日文字符分类为汉字或片假名或平假名。” ,

我想知道在 Sqlite3 、 QT 、 ICU 或任何其他可以提供字符 Unicode 的包中是否存在用于 C 或 C++ 编程语言的 API?

在Unicode的基础上,我们可以很容易地对日文字符进行分类。

如果我错了,请纠正我?

4

1 回答 1

3
  1. 正如您所说,使用 Unicode 可以轻松地将日文字符分类。这是微不足道的。

  2. 片假名到平假名的转换也很简单,因为存在一对一的映射。您可以通过卡卡西将汉字转换为平假名

  3. 排序可以通过首先转换为平假名来完成。然而,这是一个穷人的类型,因为许多汉字是同音字(相同的声音,不同的汉字)。所以你应该先对汉字进行排序,然后再按平假名进行转换和排序。

您没有说为什么需要以这种方式进行排序。如果您告诉我们更多有关您的应用程序的信息,也许我们可以建议一种更好的方法。

于 2011-03-22T09:17:11.043 回答