我正在使用带有立陶宛语 ( lt_LT
) 语言的 ICU。该语言的字母表如下:a ą b c č d e ę ė <...> v z ž
但是,在排序时,ICU 的整理者假设,例如,a
和ą
( a
with ogonek) 是等价的,因此立陶宛语单词列表被排序如下:
a, ą, ab, aba, abadas, <...>, b, ba, <...>`
当预期的结果是:
a, ab, aba, abadas, <...>, ą, <...>, b, ba, <...>
其他“重音”字母(e
- ę
- ė
,z
-ž
等)也会发生同样的情况
更具体的测试用例:运行source/samples/coll/coll -locale lt_LT -source ą -target aa
决定source is less than target
何时不是这种情况(如果需要,请参阅coll.cpp )。
这种行为是预期的吗?这是错误还是功能?如果是这样,我怎样才能防止 ICU 的校对者将“相似”的字母对齐在一起?