sorting - 如何将日文字符分类为汉字或片假名或平假名？

Question

我正在开发一些需要对日本语言进行分类的应用程序。

日文排序需要将片假名和汉字转成平假名，然后按照UTF-8编码进行排序。

平假名、片假名和汉字字符应组合在一起，并按平假名等效“拼写”排序。注意：使用平假名“字母”——a、i、u、e、o、ka、ki、ku、ke、ki 等。

现在要完成这项任务，我需要：

1.将日文字符分类为汉字或片假名或平假名。

2.将片假名和汉字转换为平假名。

3.应用基于语音（平假名）进行排序的算法。

应用程序数据库采用 UTF-8 格式。

现在执行第一步：“将日文字符分类为汉字或片假名或平假名。” ,

我想知道在 Sqlite3 、 QT 、 ICU 或任何其他可以提供字符 Unicode 的包中是否存在用于 C 或 C++ 编程语言的 API？

在Unicode的基础上，我们可以很容易地对日文字符进行分类。

如果我错了，请纠正我？

score 3 · Accepted Answer

正如您所说，使用 Unicode 可以轻松地将日文字符分类。这是微不足道的。
片假名到平假名的转换也很简单，因为存在一对一的映射。您可以通过卡卡西将汉字转换为平假名
排序可以通过首先转换为平假名来完成。然而，这是一个穷人的类型，因为许多汉字是同音字（相同的声音，不同的汉字）。所以你应该先对汉字进行排序，然后再按平假名进行转换和排序。

您没有说为什么需要以这种方式进行排序。如果您告诉我们更多有关您的应用程序的信息，也许我们可以建议一种更好的方法。

1 回答 1