6

我有一个混合使用 unicode 字符 \u0421、'С' 和 \u0043、'C' 的数据集。是否存在某种认为这两个字符相同的 unicode 比较?到目前为止,我已经尝试了几种 ICU 排序规则,包括俄罗斯的排序规则。

4

2 回答 2

4
于 2013-10-14T05:19:41.833 回答
1

当您查看http://www.unicode.org/Public/UCD/latest/ucd/UnicodeData.txt时,您会看到一些代码位置被注释为使用相似的代码点;但是,我不知道有任何涵盖跨脚本视觉相似性的广泛列表。您可能希望使用故意拼写错误来搜索 URL 欺骗,这在他们提出 punycode 时进行了讨论。除此之外,您最好的选择可能是使用正则表达式在数据中搜索超出预期的字符,并编译一系列临时文本修复程序,例如text = text.replace /с/, 'c'.

于 2013-10-14T00:56:00.787 回答