0

给定一个由两个字符串 [x, y] 和它们之间的第三个字符串 s 定义的区间,有没有办法计算从 x 到 s 的整个区间的百分比。最好是尊重排序规则(例如,案例重要还是不重要)。一个大概的答案是合理的。

例如,给定字符串 'a' 和 'c',在正常的 Latin-1 排序规则中,'b' 在中间,所以我们期望得到 50% 的答案。

显而易见且错误的方法就是相信编码能够度过难关。不幸的是,这忽略了在不区分大小写的排序规则中,'B' 在区间 ['a', 'c'] 中,并且等效于 'b',即使 'B' 被编码为比 ' C'。因此,除非我们进行一些标准化,否则编码没有这些信息,这可能会很昂贵。

我希望有人想到了更好的方法。似乎应该在数据库实现中出现很多东西,但我在文献或网上没有看到任何暗示这一点的东西。公平地说,我完全有可能在错误的地方和错误的名称下寻找。字符串距离问题似乎以编辑距离为主,而不是这种与排序相关的距离。

除了排序规则之外,问题也可能取决于编码。在这种情况下,我对各种 UTF 编码最感兴趣。

4

0 回答 0