internationalization - ICU 的整理者假设“a”和“±”是相同的

Question

我正在使用带有立陶宛语 ( lt_LT) 语言的 ICU。该语言的字母表如下：a ą b c č d e ę ė <...> v z ž

但是，在排序时，ICU 的整理者假设，例如，a和ą( awith ogonek) 是等价的，因此立陶宛语单词列表被排序如下：

a, ą, ab, aba, abadas, <...>, b, ba, <...>`

当预期的结果是：

a, ab, aba, abadas, <...>, ą, <...>, b, ba, <...>

其他“重音”字母（e- ę- ė，z-ž等）也会发生同样的情况

更具体的测试用例：运行source/samples/coll/coll -locale lt_LT -source ą -target aa决定source is less than target何时不是这种情况（如果需要，请参阅coll.cpp ）。

这种行为是预期的吗？这是错误还是功能？如果是这样，我怎样才能防止 ICU 的校对者将“相似”的字母对齐在一起？

score 3 · Accepted Answer

这些字母被列为 CLDR 剪裁中的次要差异，因此它们将像这样排序。如果这是错误的，请将其提交给CLDR，而不是 ICU 问题。米默同意。

1 回答 1