3

我正在使用带有立陶宛语 ( lt_LT) 语言的 ICU。该语言的字母表如下:a ą b c č d e ę ė <...> v z ž

但是,在排序时,ICU 的整理者假设,例如,aą( awith ogonek) 是等价的,因此立陶宛语单词列表被排序如下:

a, ą, ab, aba, abadas, <...>, b, ba, <...>`

当预期的结果是:

a, ab, aba, abadas, <...>, ą, <...>, b, ba, <...>

其他“重音”字母(e- ę- ėz-ž等)也会发生同样的情况

更具体的测试用例:运行source/samples/coll/coll -locale lt_LT -source ą -target aa决定source is less than target何时不是这种情况(如果需要,请参阅coll.cpp )。

这种行为是预期的吗?这是错误还是功能?如果是这样,我怎样才能防止 ICU 的校对者将“相似”的字母对齐在一起?

4

1 回答 1

3

这些字母被列为 CLDR 剪裁中的次要差异,因此它们将像这样排序。如果这是错误的,请将其提交给CLDR,而不是 ICU 问题。 米默同意。

于 2012-05-19T20:55:42.687 回答