2

我相信,日语有不止一种排序顺序,相当于英语中的字母顺序。

我相信至少有一个基于发音(我认为假名在历史上使用过两个命令),一个基于激进+笔画计数。中文也有多个顺序,其中一个基于部首/笔画,但由于 Unicode汉统一,中文和日文的相同字符可以有不同的笔画数。

因为我相信 Unicode 中排序顺序的标准是CLDR用于算法的UCA的数据,参考实现是ICU

实施通常落后于标准,并且这些信息被证明难以追踪到规范来源。

如果我使用语言说明符设置整理器,ja我应该使用哪种排序顺序?

如果有几个可用于日语,或者计划在某个时候提供,应该为这些使用哪些说明符?例如,西班牙语传统字母顺序的说明符是es-u-co-trad.

4

1 回答 1

3

CLDR(以及 ICU)提供的基本日语排序顺序基于JIS X 4061-1996中指定的排序顺序:

  • 假名按其五音(五十音)顺序排序(平假名在片假名之前)。
  • 汉字按其在 JIS X 0208 中的顺序排序,即按其“代表读法”(并遵循所有假名)。

还可以使用ja-u-co-unihan排序规则,其中包括按笔画顺序对部首进行排序的规则(遵循上面的标准规则)。这仅在您实际对部首进行排序时才有用。

如果您需要对汉字进行更准确的排序(例如,通过阅读它们所使用的单词),您将需要使用字典执行某种形态分析以找出要使用的阅读方式,然后应用 Unicode 排序规则关于那些的算法。

于 2015-04-26T11:23:40.233 回答